WOT2016黄慧攀:海量日志处理可以不用Hadoop或Spark
如今,随着云计算、移动互联网、物联网、大数据等技术的快速发展,企业逐渐认识到,数据的价值,对数据的挖掘分析能力已经成为企业的核心竞争力。对于互联网企业,最有价值的数据都蕴藏在网站的日志中。从日志中,我们可以知道网站的访问量,应用的使用量、用户的相关数据,使用偏好等关键信息,从而更好的改善服务质量,更好的满足用户的需求。
但是随着企业的用户规模不断扩大,以及数据量的爆炸式增长,日志的管理和分析变得越来越具有挑战性。近日,51CTO记者采访了【WOT2016互联网运维与开发者峰会】特邀讲师,又拍云CTO黄慧攀,就海量日志处理系统架构进行探讨。
黄慧攀是2010年加入又拍云,现任又拍云 CTO。他是 aLiLua Web 开发框架的作者,拥有 14 年互联网从业经验,技术经验涵盖范围比较广,早期以前端 Web 开发为主,后期逐步转到底层研发方向,在高性能网络服务、分布式存储系统等方面有较深入的研究。随着公司发展,团队不断扩大,相应职责细分,目前主要做技术规划和团队建设的工作。
黄慧攀此次将会在WOT 2016互联网运维与开发者峰会上带来主题为《海量日志处理系统架构》的演讲。那么海量日志对于企业来说为何如此重要呢?黄慧攀认为,日志的可挖掘价值确实非常多,比如广告领域可以通过日志回溯到某个具体的用户对什么产品或服务感兴趣,从而驱动给该用户投放什么类型的广告。这也是现在很热门的大数据领域中很重要的一项。而日志对于又拍云来说,重点是在分析平台整体性能,并在这些数据的基础上做系统优化。另外一个部分则是为给客户提供便利而做的统计分析工作。
那么在信息爆炸的时代,处理海量日志的挑战又有哪些呢?海量日志的日志数据量非常大,大到单台服务器无法存储和处理的量级。目前,又拍云现在每天收集到的访问日志就超过4TB的压缩数据,如果解压出来高达120TB文本数据。黄慧攀表示,处理如此庞大的数据量确实面临很多挑战,光收集存储这些原始日志都会成为问题,后续的处理和统计的难度就更大了。
现在,业界在处理海量日志采用比较流行的Hadoop或Spark等分布式计算系统,这样的开源技术无需考虑系统架构。黄慧攀强调,如果要针对特定的业务场景,企业自己研发日志处理系统则需要一定的经验,比如如何规范数据,如何做数据分布处理和汇总数据等等。
虽然Hadoop和Spark都是业界比较流行的开源技术,但是面向特定的业务场景很难做到尽善尽美。为此,又拍云独辟蹊径,开发了海量日志处理系统,来解决日处理TB级的压缩日志数据的方法。至于使用了哪些技术,黄慧攀则卖起了关子,感兴趣的用户可以关注在WOT 2016互联网运维与开发者峰会第二天上午的 【大数据与运维】专场中黄慧攀的有趣分享。
相关文章
- 在 Go 里用 CGO?这 7 个问题你要关注!
- 9款优秀的去中心化通讯软件 Matrix 的客户端
- 求职数据分析,项目经验该怎么写
- 在OKR中,我看到了数据驱动业务的未来
- 火山引擎云原生大数据在金融行业的实践
- OpenHarmony富设备移植指南(二)—从postmarketOS获取移植资源
- 《数据成熟度指数》报告:64%的企业领袖认为大多数员工“不懂数据”
- OpenHarmony 小型系统兼容性测试指南
- 肯睿中国(Cloudera):2023年企业数字战略三大趋势预测
- 适用于 Linux 的十大命令行游戏
- GNOME 截图工具的新旧截图方式
- System76 即将推出的 COSMIC 桌面正在酝酿大变化
- 2GB 内存 8GB 存储即可流畅运行,Windows 11 极致精简版系统 Tiny11 发布
- 迎接 ecode:一个即将推出的具有全新图形用户界面框架的现代、轻量级代码编辑器
- loongarch架构介绍(三)—地址翻译
- Go 语言怎么解决编译器错误“err is shadowed during return”?
- 敏捷:可能被开发人员遗忘的部分
- Denodo预测2023年数据管理和分析的未来
- 利用数据推动可持续发展
- 在 Vue3 中实现 React 原生 Hooks(useState、useEffect),深入理解 React Hooks 的