论文成果总结
2024 年度,时序数据库 IoTDB 在数据库领域 CCF-A 类国际会议上共发表论文 8 篇,包括:SIGMOD 3 篇、VLDB 3 篇、ICDE 2 篇,涵盖存储、引擎、查询、分析等方面。
2024 最后一天,我们将分类盘点 IoTDB 本年的论文成果及核心技术创新内容:
在存储方面,Apache TsFile 作为一种专为物联网时间序列数据设计的文件格式,通过优化数据组织和索引结构,实现了高效的数据存储和查询。REGER 方法通过重排序时间序列数据点来优化回归编码,旨在降低存储成本。
在引擎方面,针对 Apache IoTDB 中的 LSM-tree 架构,我们提出了多列合并(MCC)策略,有效解决了空间放大问题。通过 Raft 共识协议在 Apache IoTDB 中的系统性调优,提升高吞吐量物联网场景下的系统性能。
在查询方面,我们提出了版本化的时间序列数据模型,以及针对版本化数据的查询优化技术,提高了数据的查询效率。此外,还提出了随机摘要方法来确定精确分位数,为数据分析提供了高效解决方案。
在分析方面,LSMOD 方法优化了 Apache IoTDB 中的异常点查询,提高了异常检测的效率。M4-LSM 方法结合了 M4 采样方法和 LSM-Tree 存储结构,优化了时间序列数据的可视化性能。
这些创新技术为物联网应用提供了强有力的支持,并有望在未来发挥更加重要的作用。
存储
VLDB 2024: Apache TsFile: An IoT-native Time Series File Format
🎯Apache TsFile:物联网时间序列数据的专属文件格式
✍️第一作者:赵鑫
在物联网(IoT)领域,时间序列数据扮演着至关重要的角色。这些数据记录了设备在特定时间点的状态或测量值,对于设备监控、预测分析以及决策支持等应用具有重要意义。然而,传统的文件格式在处理物联网时间序列数据时存在诸多不足,如性能瓶颈、存储冗余等问题。为了解决这些挑战,Apache TsFile 应运而生。
Apache TsFile 是一种专门为物联网时间序列数据设计的文件格式。它充分考虑了物联网数据的特性,如设备众多、数据量大、时间戳有序等,从而实现了高效的数据组织和存储。TsFile 将数据按照设备进行划分,每个设备的数据被组织成一系列的数据块(Chunk),每个数据块包含该设备在特定时间段内的数据。这种组织方式不仅提高了数据的压缩效率,还使得数据在设备级别和文件系统块级别上具有良好的局部性。
除了数据组织方式的优化,TsFile 还采用了高效的索引结构来加速数据查询。它基于 B 树实现了索引区域,能够快速地根据设备 ID、时间范围或值范围等查询条件定位到数据区域中的具体位置。此外,TsFile 还提供了丰富的 API 接口,方便用户进行数据的写入、读取和查询等操作。
在性能评估方面,Apache TsFile 与其他常用的文件格式(如 Parquet、Arrow)进行了对比。实验结果表明,TsFile 在存储空间、写入速度和查询延迟等方面均表现出色,特别是在处理大规模物联网时间序列数据时,其性能优势更加显著。
总之,Apache TsFile 是一种专为物联网时间序列数据设计的文件格式,它通过优化数据组织和索引结构,实现了高效的数据存储和查询,为物联网应用提供了强有力的支持。
🗂全文链接:https://doi.org/10.14778/3685800.3685827
ICDE 2024: REGER: Reordering Time Series Data for Regression Encoding
🎯REGER:时序数据重排序编码方法
✍️第一作者:肖今朝
在当今的大数据时代,时间序列数据无处不在,它们记录着各种随时间变化的现象,如股票价格、天气变化、设备传感器读数等。然而,这些数据的存储和传输成本往往很高,特别是在物联网(IoT)场景中,时间序列数据量巨大且持续增长。为了优化这些时间序列数据的存储效率,我们提出了一种新的方法——REGER(REGression Encoding with Reordering)。
REGER 方法的核心思想是对时间序列数据进行重排序,以改善回归编码的效果。传统上,时间序列数据是按照时间顺序存储的,但这种方法可能不利于数据的压缩,因为数据中的波动可能会使得回归模型难以准确预测。REGER 方法则通过重新排列数据点,使得相邻的数据点在时间和值上都更加平滑,从而降低了回归模型预测误差,进而降低真实值与预测值之间残差的存储空间。
具体来说,REGER 方法首先会根据时间序列的时间戳、值和分区进行排序,然后根据启发式算法选择对残差大小影响最大的数据点进行移动,以进一步降低残差。这个过程中,REGER 会考虑数据点的位置、相邻数据点的关系以及回归模型的预测能力等多个因素,以降低编码时间。通过不断地迭代和调整,REGER 最终能够找到一个最优的数据点排序方式,使得编码后的残差序列具有更低的比特宽度,从而提高了数据的压缩比。
总的来说,REGER 方法是一种创新的时间序列数据压缩技术,它通过重新排序数据点来优化回归编码的效果,从而提高了数据的存储效率。
🗂全文链接:https://doi.org/10.1109/ICDE60146.2024.00100
引擎
VLDB 2024: On Reducing Space Amplification with Multi-Column Compaction in Apache IoTDB
🎯LSM-tree 多元时间序列合并优化
✍️第一作者:方晨光
在物联网(IoT)场景中,数据插入和更新频繁且往往无序,这给存储系统带来了很大的挑战。特别是当这些数据以多列形式存储时,问题变得更加复杂。Apache IoTDB 是一个开源的时间序列数据库,它采用了 LSM-tree 架构并支持多列存储。然而,在这种架构下,数据的无序插入和更新会导致键的重复、值的过时以及位图的重叠,从而加剧了空间放大(SA)问题。
为了解决这个问题,我们提出了多列合并(MCC)策略。MCC 策略考虑了多列数据的独立插入(无序数据)和更新,旨在通过优化文件选择来减少 LSM-tree 合并过程中的空间成本。具体来说,MCC 策略会合并具有延迟和更新值的文件,从而消除重复键、过时值和重叠位图所带来的空间浪费。
在 Apache IoTDB 中,MCC 策略主要在合并选择器(Compaction Selector)中工作。当某一层级的数据大小超过给定阈值时,就会触发合并操作。此时,MCC 策略会选择一定数量的文件进行合并,并将它们移动到下一层级。通过这种方式,MCC 策略能够显著降低存储多列数据时的空间成本。
实验结果显示,与传统的合并方法相比,MCC 策略在减少空间成本方面表现出色。此外,MCC 策略还具有很好的适用性,可以扩展到其他使用 LSM-tree 的时间序列数据库。这不仅有助于提升存储效率,还能优化读取性能,从而满足物联网应用对存储系统的高要求。
总的来说,多列合并技术是 Apache IoTDB 中一个重要的创新点,它有效地解决了空间放大问题,为物联网应用提供了更加高效、可靠的存储解决方案。
🗂全文链接:https://doi.org/10.14778/3681954.3681977
ICDE 2024: On Tuning Raft for IoT Workload in Apache IoTDB
🎯Raft 共识协议在物联网中的优化
✍️第一作者:江天
随着物联网(IoT)技术的飞速发展,IoT 数据库的重要性日益凸显。这类数据库需要处理来自大量设备的数据,确保数据的可靠性和一致性至关重要。Raft 共识算法作为一种分布式一致性算法,被广泛应用于 IoT 数据库中以保证数据的高可用性和容错性。
然而,直接将 Raft 算法应用于 IoT 场景会面临诸多挑战。IoT 工作负载具有其独特性,如高并发性、流量波动性和固定大小的请求等。这些特点使得传统的 Raft 算法在处理 IoT 数据时可能出现瓶颈,如同步点繁重、资源分配不合理等。
为了克服这些挑战,我们对 Raft 算法进行了深入研究和调优。通过优化调度、持久化和内存管理等方面,可以显著提升 Raft 算法在 IoT 数据库中的性能。例如,在调度方面,采用基于队列的调度方式可以减少访问冲突,提高系统并行性;在持久化方面,利用预序列化技术可以减少内存拷贝,提高写入速度;在内存管理方面,通过专门管理条目内存,可以减少垃圾回收器的压力,提高内存利用率。
此外,我们还提出了自适应的调度器数量确定方法和基于样本的压缩算法选择方法,以进一步优化 Raft 算法的性能。这些优化措施使得 Raft 算法能够更好地适应 IoT 工作负载的特点,提高了系统的吞吐量和响应速度。
综上所述,Raft 共识算法在 IoT 数据库中的应用与调优是一个不断发展和完善的过程。通过不断优化算法的不同方面,我们可以更好地满足 IoT 数据库对高性能和高可靠性的需求。
🗂全文链接:https://doi.org/10.1109/ICDE60146.2024.00399
查询
SIGMOD 2024: Optimizing Time Series Queries with Versions
🎯使用版本标签优化时序数据查询
✍️第一作者:康瑞
在工业互联网中,时间序列数据扮演着至关重要的角色。这些数据以极高的频率生成,如每毫秒一次,对数据库的持久性能提出了严峻挑战。传统的 B-tree 数据库在处理这类数据时显得力不从心,因此,业界引入了日志结构合并树(LSM-tree)来应对。
LSM-tree 专为持久化键值对设计,通过一系列的日志和合并操作来维护数据。在物联网(IoT)数据库中,LSM-tree 被广泛用于存储 IoT 数据。然而,现实应用中的 IoT 数据往往是多版本的,这增加了 LSM-tree 的复杂性。数据包的延迟、重复以及 IoT 设备的错误读取,都可能导致数据版本的出现。
为了有效管理这些版本化的时间序列数据,我们提出了版本化的时间序列数据模型。该模型通过分支来管理数据的更新,使得每个查询都能根据查询表达式或数据块级别来合并版本化的数据。这不仅提高了数据的准确性,还为查询优化提供了可能。
现有的时间序列数据库大多依赖写前日志(write-ahead logs)来优化查询,但这种方法在处理版本化数据时并不总是最优的。因此,我们开发了一系列针对版本化数据的查询优化技术,如快速点过滤、高效范围过滤以及新的 I/O 权衡平衡策略等。
总的来说,版本化的时间序列数据管理和查询优化是工业互联网中的一项重要技术。它通过引入版本控制和先进的查询优化技术,提高了数据的准确性和查询效率,为工业物联网的发展提供了有力支持。
🗂全文链接:https://doi.org/10.1145/3654962
SIGMOD 2024: Determining Exact Quantiles with Randomized Summaries
🎯基于随机摘要的精确分位数查询
✍️第一作者:陈子陵
在数据分析中,分位数是一个非常重要的统计量,它可以帮助我们了解数据的分布情况。然而,对于大规模数据集,计算精确的分位数往往是一项耗时且资源密集的任务。为了解决这一问题,我们提出了一种创新的随机摘要方法来确定精确分位数。
这种方法的核心在于利用随机化技术来构建数据的摘要表示。随机摘要方法不需要对位于外存的整个数据集进行排序或完全加载,而是通过对数据进行多次遍历,在每次遍历中建立随机摘要并使用概率过滤器来逐步缩小分位数的可能范围。
具体来说,该方法首先根据数据的分布情况,利用随机化技术生成一个初始的摘要表示。然后,在每次数据遍历中,它都会应用概率过滤器来更新摘要,并根据摘要中的信息来估计新的分位数可能范围,即更新概率过滤器。由于概率过滤器的使用,该方法能够以较高的概率在较少的遍历次数内确定精确的分位数,这与传统的确定性方法不同。
值得注意的是,随机摘要方法不仅提高了计算效率,还具有良好的可扩展性和灵活性。它能在受限内存下处理大规模数据集,并且支持对多个分位数的同时查询。此外,该方法还可以与其他优化技术相结合,如预计算和并行处理,以进一步提高性能。
总的来说,随机摘要方法为确定精确分位数提供了一种高效且实用的解决方案。它利用随机化技术来构建数据的摘要表示,并通过多次遍历和概率过滤器来逐步缩小分位数的可能范围。这种方法在数据分析、数据挖掘和机器学习等领域具有广泛的应用前景。
🗂全文链接:https://doi.org/10.1145/3639280
分析
VLDB 2024: Distance-based Outlier Query Optimization in Apache IoTDB
🎯LSMOD:数据库原生的时序数据异常检测
✍️第一作者:苏云祥
在时间序列数据分析中,异常检测是一个重要的任务,它能够帮助我们识别出数据中的罕见模式或异常行为。然而,对于时间序列数据库中的时序数据,尤其是延迟到达的时序数据,异常检测任务变得更加复杂。
为了解决这一问题,我们提出了一种名为 LSMOD 的方法,用于优化基于 LSM-tree 的时间序列数据库 Apache IoTDB 中的异常检测查询任务。Apache IoTDB 广泛应用于物联网(IoT)场景,其能够支持大量数据的频繁写入操作。然而,这种支持频繁写入的存储结构不利于处理异常检测查询,特别是对于延迟到达的时序数据。
LSMOD 方法考虑了时间序列数据库中数据可能存在的延迟到达情况,即由于传输问题、网络问题而导致的时序数据延迟到达,并因此被分散存储在多个文件中,这些文件的时间范围可能存在重叠。传统的异常检测方法在处理延迟到达数据时面临限制和挑战,因为其无法通过简单合并每个文件中的局部异常检测结果来得到正确的全局异常检测结果。
基于以上限制和挑战,LSMOD 方法提出通过桶统计信息和边界条件来进行剪枝,从而有效处理时序数据库情景下的异常检测查询任务。LSMOD 能够在处理数据库内的多个时间范围重叠文件时,考虑数据延迟到达的影响,并准确地识别出原始数据中的异常数据,同时能够保证较高的效率。
总的来说,LSMOD 方法为时间序列数据库中的异常检测任务提供了高效的解决方案,能够在延迟到达的数据的情形下有效进行异常检测,提高了时序数据库内异常检测的效率。该方法对于物联网、气候监测等需要实时分析和处理大量时间序列数据的领域具有重要的应用价值。
🗂全文链接:https://doi.org/10.14778/3681954.3681962
SIGMOD 2024: Time Series Representation for Visualization in Apache IoTDB
🎯M4-LSM:面向可视化的时序数据采样性能优化
✍️第一作者:芮蕾
时间序列数据,作为记录随时间变化而产生的数值序列,广泛应用于各行各业,如金融、交通、气象等领域。然而,面对海量且复杂的时间序列数据,如何高效地进行存储、查询和可视化成为了一个亟待解决的问题。M4-LSM,作为时间序列数据库 Apache IoTDB 中的一种创新方法,为解决这一问题提供了有效的途径。
M4-LSM 的核心在于结合了 M4 表示法和 LSM-Tree 存储结构。M4 表示法是一种误差为零的时间序列可视化方法,它能够将时间序列数据转化为二维双色(黑白或蓝红等)线图,同时保留数据的关键特征,如形状和趋势。然而,传统的 M4 方法在处理存储在 LSM-Tree 结构中的时间序列数据时,存在效率瓶颈,因为它需要加载并合并所有的数据块。
为了解决这个问题,M4-LSM 应运而生。它充分利用了 LSM-Tree 存储结构的特性,通过直接利用数据块的元数据,避免了不必要的数据加载和合并操作。此外,M4-LSM 还引入了步长回归和值回归函数等创新技术,进一步提升了查询效率和可视化性能。
具体来说,步长回归用于快速定位包含表示点的数据块,从而减少了需要访问的数据量。而值回归函数则用于进一步筛选数据点,确保只保留能够成为顶部或底部表示点的数据,从而进一步提高了可视化的精度和效率。
实验结果表明,M4-LSM 在处理大规模时间序列数据时表现出色,能够显著缩短查询时间,同时保持完美的可视化精度。未来,随着技术的不断发展,M4-LSM 有望为更多领域的时间序列数据可视化提供更加高效和精确的解决方案。
🗂全文链接:https://doi.org/10.1145/3639290
更多内容推荐:
• 了解如何使用 IoTDB 企业版