近期,第39届IEEE数据工程国际会议(以下简称ICDE )在美国加利福尼亚召开,由字节跳动数据平台和华东师范大学合作提交的论文聚焦数据库领域,提出 WaLSM架构设计、优化和性能提升的创新技术方案,成功被大会收录。
ICDE是全球数据库领域的三大会议之一,重点面向数据工程和数据密集型系统研究人员, 致力于解决设计、构建、管理和评估高级数据密集型系统和应用程序方面的研究问题,也是研究人员、从业者、开发人员和用户探索前沿思想并交流技术、工具和经验的领先论坛。
据介绍,本次 ICDE 吸引了大约700人参与,共接收256篇论文,其中14篇为数据库系统相关研究。作为数据库系统的研究成果之一,字节跳动数据平台投递的论文《Workload-Aware Log-Structured Merge Key-Value Store for NVM-SSD Hybrid Storage 》,重新设计 WaLSM,针对真实负载具备强访问倾斜性的特点,结合 DRAM-NVM-SSD 存储系统优势,提出自适应的 LSM-tree 调优方案,具备极强的技术创新性,因而被ICDE收录。
字节跳动专家团队在ICDE 2023展区
该项成果的创新性在于,WaLSM 提出了一种几乎无额外开销的数据分区方式,对硬盘上的数据进行分区,降低 Merge 策略调整粒度,增加了针对硬盘上负载捕捉访问模式的能力。以分区为单位,WaLSM 在真实负载下基于强化学习算法,支持自适应地调整各个分区使用的 Merge 策略,以更好实现写放大与查询收益之间的平衡。
值得一提的是,此次论文中的成果未来将通过ByteHouse对外开放。ByteHouse是火山引擎数智平台旗下的一款云原生数据仓库,支撑实时数据分析、海量数据离线分析,为用户提供极速体验,而WaLSM 的自适应调整算法可以帮助 ByteHouse 根据真实负载中的数据热点找到全局较优的 Merge 策略,降低 IO 开销,最终提升MergeTree 存储引擎的整体吞吐量。
据介绍,字节跳动在2017年就开始大规模启用ClickHouse,并拥有着国内规模最大的ClickHouse集群。面向ToB市场推出的ByteHouse则是字节跳动在大量经验实践上,对ClickHouse深度优化、自研改造的成果。
从架构上来看,ByteHouse采用了自研的高可用引擎,支持数据实时更新、删除,新增了自研的查询优化器,并且在集群的运维和多表关联的场景都做了相应的增强,保证用户在复杂查询的场景下具备更高的查询效能。
目前,海王集团、中国地震台网中心等行业的客户都已与火山引擎ByteHouse达成合作,通过海量数据实时分析的极速服务,辅助决策落地,加速业务洞察,更好更快地实现数智化升级。
本文转载自互联网,如有侵权,联系删除