蹭上AI西风 ClickHouse应战Snowflake
上月,开源列式厂商ClickHouse宣布成功3.5亿美元C轮融资,该轮融资后值抵达63.5亿美元,简直翻了三倍,引发了业内一轮不小震动。
不光在于融资与估值上下,还在于ClickHouse所在的赛道——AI时代的大和存储,该范围的客户需求正日益高涨,同时对数据库的要求也在片面更新。
ClickHouse作为一款开源列式数据库,在处置该类数据时表现出的清楚优点,不只力压同类型的列式数据库,也让云数仓独角兽Snowflake,以及老牌大厂产品Redshift、BigQuery等有了一丝缓和之感。
ClickHouse脱胎于俄罗斯第一大搜寻引擎Yandex的开源项目,于2021年正式独立为商业化公司。现在,ClickHouse展开势头正盛,经过向客户收取云托管费用,其业务在过去一年增长逾越300%,服务企业客户逾越2000家,掩盖、交通、消费者和医疗保健等多个行业。最近的一些客户包括AI初创公司Anthropic、特斯拉,以及阿根廷最大电商Mercado Libre等。另据外媒可参考信息,ClickHouse在第一季度末时的年经常性支出已抵达7000万美元,年化营收运转率靠近1亿美元。
ClickHouse越来越成为一家无法无视的数据库厂商。不过,关于ClickHouse的展开势头,首先会存在一个疑问:为什么是此时?以及ClickHouse的市场前景如何?
技术即是本钱护城河
相关于行存储的传统相关型数据库,列式数据库意味着数据保管在相似电子表格的行、列中,这种列式架构可清楚放慢剖析型义务的速度。在数据处置环节中,数据库系统要求同时从多个存储区域检索数据,而数据访问速度会清楚遭到存储位置的影响——从相邻区域读取数据的速度要远快于从分散区域读取。
ClickHouse从设计之初就充沛运行了这一特性来优化查询性能。它将同一列的数据尽或许存储在相邻的物理区域,这种存储规划使得列数据能够被延续读取,大幅增加了寻址时期,从而清楚优化扫描效率。这种设计特地适宜剖析型查询场景,由于这类查询通常要求加快访问大批列数据。
笔者此前与数据库专家交流取得一个观念是,数据驱动的剖析运转越来越普遍,要求数据库技术栈成功分歧架构。在此之前,这些技术栈彼此独立,如MySQL+Teradata+Elastic Search等多个系统搭积木的方式,这个架构最大的疑问在于过于复杂,要求搭建一个集群来成功数据剖析的才干,搭建与保养本钱较高。
详细而言,如开源的MySQL,这类事务型数据库面向OLTP场景设计,社区研发方向偏重于增强其事务处置的才干,普通无法扩充以应对处置大批、复杂查询所要求的剖析型义务。传统数仓针虽外部批量处置密集型用例启动了优化,但并发性有限且性能较慢。而相似于Elastic Search的传统搜寻引擎技术,关于非结构化数据剖析而言本钱高昂,包括存储和计算资源的占用介入,以及无法成功加快精准检索等要素,限制了其通常运转范围。
ClickHouse提供了一个专门的处置计划来补偿差距——将高性能剖析与当今自动数据驱动运转所需的可扩充性和并发性相结合。作为高性能列式存储,ClickHouse能够以极低的提早在集上行动交互式剖析查询,十分适宜于支持AI和机器学习运转,以及实时剖析、可观测性等义务。
蹭上AI西风
除了技术架构的创新,ClickHouse的展开也离不开市场与客户需求的变化。由于企业不再只是构建BI或批量报告,而是心愿搭建一个实时的自动数据平台,并且同时为人类和AI Agent所调取。结合以后AI Agent的设计思绪,由于生成查询的速度远超人类,面向其设计的数据平台/数据库肯定具有低提早照应、支持交互式剖析查询的才干,同时还要有更高的吞吐量,以满足其高效处置数据的要求。
以近期大热的AI编程为例。虽然少数AI编程助手推出时期不长,但开发者留存率依然较高。据研讨公司Indagari数据显示,至少72%订阅了编程助手Cursor的用户在六个月后仍继续付费;逾越20%的用户订阅了多个编程助手,且这一比例还在一直增长。高留存率反映的是AI编程的强粘性,这也意味着企业运转开发速度正借AI之势迎来加快增长。
AI要求能够加快开释数据价值的数据基础设备,这件事情已变得紧迫。
近期,ClickHouse分享了Anthropic运转其数据库处置计划的经验。Anthropic团队技术人员给了ClickHouse十分高的评价:“ClickHouse在协助我们开发和公布Claude 4方面发扬了关键作用。”据其所述,训练初级模型要求继续了解性能目的和系统行为,ClickHouse在实时剖析数据的速度和灵敏性十分高。
关于Anthropic而言,有三点中心诉求:一是实时采集海量数据,对半结构化数据启动加快、多维度剖析;二是部署安保;三是可扩充性,能与市面上的可观测性工具成功良好兼容。但ClickHouse的开源版本并不能完全满足其上述需求,为此Anthropic选择在外部部署了隔离的ClickHouse Cloud云产品。从控制平台到数据平台,成功外部隔离。
Anthropic在探求自动剖析Agent(agentic analytics)范围,经过引入ClickHouse的MCP,Anthropic可以将其模型(例如AI编程工具Claude Code)直接衔接到ClickHouse。这意味着,Agent可以经过编程方式查询目的、讯问、检索答案,而无需编写传统的查询言语。
一些投资人士指出,在AI兴起、市场对数据库软件需求高涨的当下,ClickHouse或许会与Snowflake竞争,比如说ClickHouse的实时剖析才干会优于Snowflake。虽然有些客户想要Snowflake提供的“花哨性能”,但ClickHouse速度更快,更廉价,且专注于实时剖析。
业内将ClickHouse与Snowflake、Redshift、BigQuery重复拿来对比的一个中心要素,还在于本钱。
一些人士以为,ClickHouse能够以25%-40%的本钱提供相反或更优的性能,基本可以取代Snowflake和BigQuery。比如Snowflake在计算方面往往相对昂贵,而BigQuery的按需查询模型在处置大批数据扫描时或许会变得昂贵。早在2023年,ClickHouse就曾地下宣布言论称,Snowflake等云数仓产品在满足客户需求和性价比上存在的应战。
现在,ClickHouse相同将市场目光放到了Agent范围。据ClickHouse首席行动官Aaron Katz的描画,随着Agent在数据驱动型运转、可观测、数据基础设备等范围的蓬勃展开,像ClickHouse这类面向Agent的数据库需求曾经抵达一个转机点。剖析的未来不只仅是报表,而是能够解读数据、动身任务流并支持实时决策Agent。
一些投资人士以为,随着开发人员转向Agent,即Agent可以经过客户阅读器或企业运转行动复杂义务,ClickHouse将迎来更高的需求。
这点也成为风投追捧ClickHouse作为下一个Snowflake继任者的关键点。毕竟,在数据库范围,能够加快展开的初创型软件公司,不多了。
三位开创人:CEO Aaron Katz;CTO Alexey Milovidov;产品 Yury Izrailevsky
回想ClickHouse的展开,该公司始于俄罗斯科技巨头Yandex的外部需求。2009年,为了高效处置Yandex.Metrica搜寻引擎的海量数据剖析义务,Yandex团队末尾研发一款高性能列式数据库,这便是ClickHouse的雏形。经过多年外部优化,2016年Yandex将其开源,仰仗出色的查询速度和对大规模数据剖析的自然优点,ClickHouse迅速在开发者社区走红,成为OLAP范围的明星项目。
随着开源生态的壮大,ClickHouse的中心团队在2021年从Yandex独立,并取得了硅谷风投的喜爱。公司成立后,团队在坚持开源版本生机的同时,末尾推进商业化,于2022年推出ClickHouse Cloud托管服务,并成功数轮融资,估值一度飙升至20亿美元。
在取得该轮融资后,ClickHouse步伐清楚放慢,除了推进大客户市场翻开,最新任命了在Atlassian、Slack等头部SaaS软件企业的销售老兵Kevin Egan为首席营收官,还同步收买了HyperDX、PeerDB等初创公司。(本文于媒体APP,作者 | 杨丽,编辑 | 盖虹达)
Jerry 是一家北美科技公司,关键应用 AI 和机器学习技术简化汽车保险与存款的比价和购置流程。 在 AWS Redshift 遇到性能与本钱难题后,Jerry 采用 ClickHouse,数据查询性能提高了 20 倍,本钱大幅降低。 但是,经常使用 ClickHouse 遇到了磁盘损坏与数据恢复等疑问,Jerry 希望增加集群保养任务。 Jerry 实施了 JuiceFS,应用其快照性能成功 ClickHouse 主从架构,确保了高可用性与稳如泰山性,清楚提高了系统性能与数据恢复才干。 此架构在过去一年里无停机与复制错误,提供预期性能。 Jerry 原先经常使用 Redshift,但数据量增长造成性能与本钱疑问。 Jerry 成功切换到 ClickHouse,并优化数据仓库设计,报表加载时期大幅缩短,总本钱降低四分之一以上,优化团队任务效率。 Jerry 目前架构以 ClickHouse 为主,配合 Snowflake。 ClickHouse 担任 99% 数据场景,难以处置的 1% 数据义务转移至 Snowflake。 Jerry 优化数据交流,用户在 ClickHouse 与 Snowflake 间平滑转换。 在部署 ClickHouse 单机方案时,Jerry 评价了其常年可行性,并思索了内存、CPU 与存储带宽需求。 单机部署能有效应对未来几年需求。 但是,ClickHouse 面临存储扩展与保养难题,每次操作耗时长。 Jerry 经常使用 JuiceFS 架构改良 ClickHouse 部署。 启用缓存后,JuiceFS 读取性能接近本地硬盘,写入性能为磁盘速度的 10% 至 50%。 经过调优,缓存命中率优化至 95%。 此方案清楚增加运维任务,提高本钱效益。 在 JuiceFS 支持下,Jerry 构建主从架构,成功资源隔离与数据正本稳如泰山性,优化性能与可用性。 主实例担任数据同步与 ETL,从实例提供查询服务,架构稳如泰山运转超越一年,成功 2 万次复制操作无缺点。 Jerry 经常使用 JuiceFS 在数据交流、机器学习管线与 Kafka 存储场景中提供便利,节省本钱并优化任务流程。 JuiceFS 作为文件系统,让数据控制变得愈加简易,适用于创业型与大公司的小型业务。
版权声明
本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。