开源大数据热力报告:StarRocks摘得数据查询与分析方向增速第一

本文作者:StarRocks社区

 

 

StarRocks 荣登开源大数据热力报告 Top 30,并作为数据查询与分析方向增速第一的项目出席 11 月 17 日的报告圆桌讨论会。StarRocks PMC 赵恒 代表分享了 StarRocks “极速”提升热力值的心得方法。可查看内文视频,了解详情。

获取报告

本文发表于: &{ new Date(1669046400000).toLocaleDateString() }

近日,由开放原子开源基金会、X-lab 开放实验室和阿里巴巴开源委员会联合出品的《2022 开源大数据热力报告》(以下简称“报告”)在云栖大会公布。StarRocks 荣登报告 Top 30,并作为数据查询与分析方向增速第一的项目出席了 11 月 17 日的报告圆桌讨论会。

 

报告研究了“后 Hadoop 时代”最活跃的 102 个开源大数据项目,基于 2015 年至今的相关公开数据进行关联分析,主要考察项目关注度、贡献活跃度、协作关联度和可持续发展的健康度,得出每个项目的热力值。热力值主要基于开源项目的每年新增 Star 数量、新增 Issue 数量、OpenRank值 等 3 个关键指标加权计算而来。在解决用户痛点、持续关注开发者体验等核心竞争力上的卓越表现,是促使 StarRocks 以仅一岁多的社区年龄就火速上榜的主要原因。

报告调研的开源大数据项目覆盖 8 个类别,其中数据查询与分析连续 8 年位于热力值榜首。这一领域是大数据兵家多争之地,竞争带来的生态繁荣也促使 StarRocks等项目获得了更多的技术热度。

 

#01 解决用户痛点、持续关注开发者体验是热力核心

把解决用户痛点作为核心竞争力、持续关注开发者体验,是 StarRocks 等上榜 TOP30 开源项目的共同特征,这些特征保证项目与时俱进,成为热力趋势中的 “常青树”或“黑马”。

过去的一年多时间里,StarRocks 共发布了超过 50 个大小版本,维持着两个月一大版本,每周一小版本的速度快速迭代。每一次的产品更新与迭代,均来自用户、社区开发者和 PMC 们共同的打磨和助力。

以存算分离这一痛点为例,StarRocks PMC 赵恒谈到,在与行业用户的深度交互中发现,当前的云原生数据仓库大多没有很好处理实时的问题,StarRocks 的云原生架构在传统的设计基础上结合自身高性能的实时更新存储引擎,实现了实时数据分析和 Lakehouse 的统一 。

 

在圆桌中,赵恒从社区治理和社区运营的两个维度分享了 StarRocks “极速”提升热力值的心得方法。

从社区治理的角度:

一是治理模型和规则应该简单,简单才能持久地推动,StarRocks 只专注在几个大方向。一般贡献者参与社区会关注两个核心问题:一是他们能为社区做什么,再来是他们怎么才能做到想做的事。因此清楚定义社区中的角色,像是 Contributor、Committer、PMC 等角色和晋升规则,让开发者知道通过哪些努力才能获得更大的社区影响力很重要。

二是降级参与门槛:维护良好的文档、创建新人辅导机制等都是让新手能快速加入社区的关键。StarRocks 社区之前也举办过好几期面向新手的 StarRocks 极客营活动,活动中会有负责导师带着入门,很多开发者都是借由这系列的活动第一次接触到数据库的开发工作。

三是吸引更多的高手:社区里有形形色色的开发者,为了让开发者能在自己感兴趣的领域贡献价值和提升自身的技术能力,StarRocks 创建了 DLA (数据湖分析)、Cloud Native、MV(物化视图)等兴趣小组,吸引领域高手和对此领域有特殊兴趣的人来加入贡献。

四是多样的贡献方式:社区不止于代码,一个社区健康成长需要多样的共建伙伴,因此 StarRocks 也鼓励成员积极参与讨论、帮助新用户更好地使用 StarRocks 或是参与对外宣讲等,并会对作出积极贡献的成员授予社区大使头衔。

从社区运营的角度:

虽然治理模型和规则应该简单,但是社区运营和推广应该越丰富越好。针对用户进行不同维度的赋能,包括产品、案例、技术、最佳技术实践的分享;与上下游合作伙伴做兼容适配,联合推广实践,引发越来越多的关注和使用;而后越来越多的用户自发提 Issue,自发推荐给其他用户。目前 StarRocks 上千个用户里,有很多都是口口相传吸引而来。

基于自身的深度社区经验,StarRocks Active Contributor、Apache Hudi Contributor、华米科技高级大数据工程师徐昱分享了对活跃度的看法:“技术本身是为业务服务的。在没有破坏整体项目设计原则的基础上,活跃度偏低的社区可以更积极地反馈用户 Issue、投入一些合理的 PR 等,这都能有效提高社区开发者的贡献热情。”

 

#02 技术周期加速缩短,极速统一 3.0 时代来临

报告发现,每隔 40 个月,热力值会提升 1 倍,开源大数据完成一轮技术迭代升级,而且技术周期在加速缩短。在 8 年时间内,发生了多轮热力变迁,反映出各项技术的更新换代趋势。

“增速代表的是趋势,说明它是在演绎未来。比如数据湖热力值增速高,背后的趋势是存储一体化;云原生数据集成逐年翻倍,背后是云原生正在大规模重构开源技术栈。” 赵恒表示,就像 StarRocks 所处的数据查询与分析板块,过去是流批一体,如今是湖仓一体,技术和产业的共同演进下,StarRocks 极速统一 3.0 的重点就是完善湖仓融合。

“极速统一”是 StarRocks 基于企业级数据分析市场需求提出的范式。我们认为,构建新一代企业数据驱动体系的核心是:用一套统一的体系来满足企业多种数据分析场景的需求,让更多的企业成员能够同时更快、更灵活、更实时地分析数据。IDC 预测, 2024 年全球数仓的市场规模将达到 297 亿美元,2019-2024 年的年复合增长率将达到12%;2024 年,中国数仓市场的规模是 168.5 亿元,中国大数据平台软件市场规模总体为 352.9 亿元,中国分析型数据库的整体市场将达到 521.4 亿元,复合增长率为 27.7%。

面对技术周期和市场规模的双重增速,为了给用户提供更快、更灵活、更实时的分析体验,StarRocks 在今年 9 月的年度社区峰会上发布极速统一 3.0,以使得用户能够在 StarRocks 上同时进行极速分析与极速数据湖分析。极速数据湖分析,即为用户提供性能堪比数据仓库的数据湖分析。

“我们针对外表查询性能做了优化,支持查询 Parquet 格式文件时延迟物化,提升小范围过滤场景下的数据湖查询性能。查询数据湖时,支持通过合并小型 I/O 以降低存储系统的访问延迟,进而提升外表查询性能。这些都是和社区用户共同开发打磨出来的。”赵恒分享道。