图片106
伴随着物联网技术的飞速发展,由物联网设备生成的数据量激增,数据类型越来越多,访问速度也要求更快,因此对数据价值(Value)的挖掘也日益受到关注。由于物联网数据有时间序列特征,所以物联网海量时序数据存储成为了物联网垂直领域的数据库解决方案的重点。
典型的物联网时间序列应用场景。
伴随着5G/物联网技术的发展,物联网数据爆炸式增长,其中物联网(IoT)和应用性能监测(APM)等成为时间序列数据的典型应用领域。涵盖物联网、车联网、智能家居、工业互联网、应用性能监控等常见应用场景,大量设备连续生成运行时间指标数据,在数据读取和写入、存储管理方面都面临巨大挑战。
时序数据的特性。
在典型的物联网、APM时序数据场景中,数据的生成、存取都有较为明显的规律性,有许多共性,相对于目前互联网的典型应用特点,有较大的差异。
数据按照时间顺序生成,必须带有时间戳,大量的物联网设备或者被监视应用程序,按照一个固定的周期或特定条件触发,不间断地生成新的时序数据。
数据是一种相对的结构,一种设备或应用,所产生的指标通常以数值型(绝大多数),字符类型为主,而且在运行过程中,指标的数量相对固定,只有模式改变,业务升级时才会增加/减少/更改指标。
少写多读,极少进行更新操作,不需要事务能力的支持,在网络应用场景中,数据写入之后,经常会被多次访问,如典型的社交,电子商务都是这样的,而在物联网、APM场景中,数据产生存储后,常常在需要做数据运营分析,监测报表,查找问题时才会去读访问。
按照时间间隔对数据进行批量存取,用户主要集中于一段时间内同一台或一台智能空调在过去一小时内的平均温度。一个集群所有实例的总体访问QPS等,需要支持对连续时间周期数据的常用计算,如求和、计数、最大值、最小值、平均数等其它数学函数。
新近数据的存取要比历史数据高得多,存取规律也很明显,为了节约成本,一般只需保存最近一段时间如三个月,数据半年内,需要支持有效的数据TTL机制,能够自动删除历史数据,最大限度地减少对写的影响。
储藏量大,冷热特性明显,所以对存储成本要求较高,需要有针对性的存储解决方案。
考虑到时间顺序的特点,为了满足大规模时序数据存储的需要,至少要面对一些核心问题:
高度并行写入吞吐:在一些大型应用程序性能监控、物联网场景、大量设备不断生成时序数据,如某省域电网的用电测量数据原先每月采集一次电表设备,随后业务升级后15分钟采集一次,每秒的时序数据点数达到几百万甚至千万时间点,要支持全量业务写入,需要几十台或数百台计算机;时序数据存储需要解决大型集群横向扩展、高性能写入等问题。
高效率的时序数据查询分析:在一个典型的监控场景中,通常需要对长周期数据进行查询分析,例如最近1天内某些指标,3,7,1个月趋势分析,报表等等;对于物联网来说,有一类比较典型的分段查询要求,如某一省指定时间内所有电表的电量明细查询,为特定品牌空调器查询某一时刻的平均运行温度;这些查询需要扫描大量集群数据以获取结果,同时查询的结果集可能很大;需要支持多维时差数据存储,且具有流式处理、预测计算等功能,能够满足大型APM、IoT业务场景查询的典型需求,同时要使大时序查询对写的影响降到最低。
廉价的时间序列数据存储器:一个典型的车联网场景,仅20000辆汽车每小时生成近百GB的汽车指标数据,若要保存一年的运营数据就要有PB级的存储规模;因为数据量庞大,存储器低成本要求高,另外时序数据冷、热特征明显。顺序数据存储器需要充分利用好时序数据量大、冷热存取明显的特点,善于计算、存储资源解耦,通过低成本存储介质、压缩编码、冷热分离、高效TTL、Servereless等技术,使数据存储成本达到极限。
简捷方便的生态协作:在物联网、工业互联网这样的场景中,顺序数据通常需要进一步进行业务分析处理,在许多情况下,时间数据只是商业数据的一部分。要完成查询分析,需要与其它类型的数据组合,要有能力和生态BI分析工具对接,大数据处理,流式分析系统,等等,和周围生态系统协作,创造商业价值。






