您现在的位置是：首页 > Java

当前栏目

客快物流大数据项目（八十七）：ClickHouse的使用案例

2023-02-18 16:35:48 时间

ClickHouse的使用案例

一、电信行业用于存储数据和统计数据使用

我国的中国电信G网数据分析应用采用ClickHouse作为数据存储引擎，主要存储网络基站设备数据、监控设备和骨干网等数据，这些数据日的增量500亿条左右，约700GB。并进行相应的分析处理，最终提供BI应用、数据挖掘等系统使用。

二、新浪微博用于用户行为数据记录和分析工作

新浪微博APP监控系统采用ClickHouse作为数据存储引擎，使用Kafka存储实时产生的消息，Python消费数据存储到ClickHouse中，然后Superset连接ClickHouse作为可视化工作台。同时还使用Hangout消费Kafka的数据到ElasticSearch中，然后使用Kibana进行问题跟踪和问题排查。

三、RTB网络广告

Geniee是日本的一家广告公司，使用ClickHouse作为其RTB实时竞价服务的数据存储引擎。

四、商业智能

今日头条最早使用ClickHouse的是用户行为分析系统。该系统在使用 ClickHouse之前，engine（引擎）层已经有两个迭代。

尝试过Spark全内存方案还有一些其他的方案，都存在很多问题。主要因为产品需要比较强的交互能力，页面拖拽的方式能够给分析师展示不同的指标，查询模式比较多变，并且有一些查询的 DSL 描述，也不好用现成的SQL去表示，这就需要engine有比较好的定制能力。

行为分析系统的表可以打成一个大的宽表形式，join的形式相对少一点。系统的数据量比较大，因为产品要支持头条所有APP的用户行为分析，包含头条全量和抖音全量数据，用户的上报日志分析，面临不少技术挑战。

在使用ClickHouse做一些简单的POC测试工作后，综合来看ClickHouse的性能、功能和产品质量来说效果不错，因为开发ClickHouse的公司使用的场景实际上跟头条用户分析是比较类似的，因此有一定的借鉴意义。

目前头条 ClickHouse 集群的规模大概有几千个节点，最大的集群规模可能有1200个节点，这是一个单集群的最大集群节点数。数据总量大概是几十PB，日增数据100TB，落地到ClickHouse的日增数据总量大概是它的3倍，原始数据也就 300T 左右，大多数查询的响应时间是在几秒钟。从交互式的用户体验来说，一般希望把所有的响应控制在 30 秒之内返回，ClickHouse基本上能够满足大部分要求。覆盖的用户场景包括产品分析师做精细化运营，开发人员定位问题，也有少量的广告类客户。

五、Yandex的统计分析服务Yandex.Metrica

Yandex.Metric是Yandex提供的免费网络分析服务，可跟踪和报告网站流量。Yandex.Metrica使用一个简单的JavaScript 标记，由网站站长在其网站上实现。标签收集网站的访问者，访问量和行为数据。Metrica也可以与Yandex.Direct在线广告平台链接以收集广告转化率。

猜你喜欢

Galaxy Release (v 22.05)，新历史面板发布
旧版 QQ 邮箱切换到新版本 UI
开源kv引擎nutsdb v0.10.0发布以及背后故事
如何开始为NutsDB做贡献
NutsDB v0.11.0发布，启动速度提高一倍
智驾车技术栈 |Apollo规划模块详解（三）：算法实现-9类交通规则（上）
iGear又双叒升级，AAML亮相！
从数据到模型：自驾高效感知并不简单
智驾车技术栈 | 综述：自动驾驶中基于深度学习的LiDAR点云综述研究
治好强迫症，iGear帮你收纳模型
Adobe Acrobat Pro DC 2020最新中文版！-所有版本的Acrobat PDF编辑器
Adobe Acrobat XI Pro 11安装教程-所有版本的Acrobat PDF编辑器
Adobe Acrobat Pro DC2019安装教程-所有版本的Acrobat PDF编辑器
Adobe Acrobat Pro DC 2019免安装！-所有版本的Acrobat PDF编辑器
Adobe Acrobat DC PRO 直装特别版-所有版本的Acrobat PDF编辑器
数据备份到对象存储(cos)
QQ打开链接跳转浏览器代码
Joe主题恢复到旧版编辑器
页面加载代码
利用PHP和crontab实现typecho定时推送链接到百度

zl程序教程