视频网站数据平台变迁之路(二)
2023-09-14 09:00:25 时间
摘要:上一篇主要介绍了 数据系统架构V1 总体架构及 数据采集与数据存储,本篇我们来聊聊架构下的数据分析遇到的各种情况
2.数据分析
聚焦Web3.0时代下元宇宙社交新浪潮,阿里云特此追热点规划音视频领域线上宣讲会 7月20日 19:00-20:10,阿里云智能-产品解决方案架构师李鑫《Web3.0布局深化,链路升级加速音视频出海进程》主题演讲,扫码报名,观看直播!
2020年末:浅谈阿里前端的多样化 舒文:本文,简单分享几个前端领域在阿里的应用场景,附带一些我对前端技术领域的一些思考,期待能够和众多的行业同仁们有交流互动的机会。
【1109 - 1113直播导视 | PPT 下载】开源日再度来袭:实时计算技术的最新探索成果和实践、今年双11究竟有啥黑科技? 本周4个专题页重磅推荐,直播&前沿技术知识两不误,分别是双十一技术回顾&亚洲最大的开源关系型数据库生态大会PostgresConf.CN&数据库&开源日,块办好小板凳前来观看吧!
OTT端性能优化建设之Weex实践之路 | 《优酷OTT互联网大屏前端技术实践》第三章 追求极致的用户体验是个永恒的话题。无论在PC端、移动端,还是IOT端,大家都在尝试着各种技术方案,如提高秒开率,降低白屏时间等等。 在OTT端进行营销活动开发的我们,也面临这一挑战,尽管PC端和Mobile端都有成熟的技术方案,但是到了大屏端,由于终端的差异性,很多技术方案不能完全照搬照抄。 回顾优酷在OTT端的用户体验探索之路,经历了三个阶段:webview时期、自定义内核Blitz时期、weex阶段。
发布会预告 | 政企互联网应用服务如何兼具极速与安全体验? 为了更好助力政企迎接国内数字化发展机遇,阿里云将打通内部CDN、安全能力,并完成自动化运维、应急响应、事件护航三重安全保障体系,形成面向政企的全新的安全加速解决方案。5月20日,阿里云产品运营专家少狂、高级技术专家容恪和技术专家啸坤将带来「政企安全加速解决方案发布会」,与大家交流解决方案的行业应用、技术架构、安全体系以及国密算法的最佳实践。
完美网络体验背后的技术力量,《阿里云互联网多媒体数据存储解决方案蓝皮书》震撼上线! 依托于环境,启蒙于困境,多媒体技术逐步进入快速发展的阶段,《阿里云互联网多媒体存储解决方案蓝皮书》应运而生,为多媒体行业的数字化进程提供有力保障。
开发者如何get技术趋势,实现成长破局?——MVP线上峰会 使众人行,你需要拥有的管理思维;数据库那些事儿,讲讲创新实战;AIoT新技术新场景实战,说干就干!未来已来!云原生战“疫”实操!
【云栖号案例 | 游戏&娱乐】混合云模式助力斗鱼搭建混搭大数据架构 斗鱼自建集群遇到瓶颈,涉及到资源效率和资源成本问题。混合云带来资源成本和资源效率变化最大,保证可以在多活数据中心的状态下支撑更多的业务。
【阿里云新品发布·周刊】第21期:小程序一云多端解决方案,助开发者实现一云多端的业务战略 点击订阅新品发布会! 新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多内容,了解更多 小程序一云多端解决方案 2019年8月14日15时,小程序一云多端解决方案分享会正式开启。
2.数据分析
_
参考数据系统架构V1,当时的分析服务器是个多台单独的服务器。由于每台服务器分析业务互相独立,算不上分布式计算也算不上集群。当时单台分析服务器工作流程如下:
分析的整体代码是通过PHP自主研发的一个小型框架,这里的部署和调整还算比较方便,我们大部分时间需要维护的只是一个各服务器分析任务的配置文件,扩容时也比较简单。
没多久,我们就上了新业务,需要分析视频的播放量和停留时间。播放量还好比PV值略小,但停留时间采用的发心跳的方式,所以日志量就比较大了。对当时的整体架构来说,要有很大的改动,上篇提到的请求会先通过php根据用户cookie的Hash转发到不同的服务器上就是为了满足这个业务的。
为什么我们要做Hash转发,而不是直接负载均衡到每台服务器呢?主要是为了满足分布式UV计算的(UV是unique visitor的简写,是指通过互联网访问、浏览这个网页的自然人),由于UV分析时需要去除重复,所以Hash以后每台采集服务器日志中的用户都不会重复,这样就满足了需求。
当时我们有各种维度的UV数据需求。在当前系统架构下,每台服务器需要从磁盘阵列上获取上一天全量的日志进行分析任务。当日志量一大,分析服务器的内存和磁盘都成了瓶颈。由于单台服务器的计算能力有限,所以我们转成了分布式数据处理。具体做了下面的三个步骤:
采集服务器的更改,同一用户的数据会在同一台服务器上 分析服务器的更改,从磁盘阵列获取分析任务所需日志,而不是上一天的全量日志 报表系统的更改,每个ip计算的数据会在数据库中有个标识,计算总体的UV数据时需要累加经过上面的三个步骤,一个简单的分布式计算就完成了。举个栗子,采集服务器有6台,分析服务器有2台,那么每台分析服务器拿3份日志即可,分析完成以后数据库中UV数据的IP维度上有两个IP的值,进行累加既是UV总量。
总结一下遇到的问题:
服务器监控层面的缺失,包括单点服务器健康状态(负载、磁盘、心跳) 单点宕机时,分析任务在其它服务器下的补救 多人协同开发下,分析服务器配置文件管理混乱(老业务变更优先级,新业务加入,单点宕机时的补救===),经常发生代码冲突 某些需求无法满足,例如月UV的数据统计,这种需要将一个月几T、几十T的日志读取并按维度计算独立用户的需求。究其原因主要是磁盘阵列同步数据到分析服务器的时间太长 分析服务器任务列表中某一任务中止以后,其它任务也随之中止 扩容的时候越来越麻烦,采集、分析、报表都要跟着有所变动聚焦Web3.0时代下元宇宙社交新浪潮,阿里云特此追热点规划音视频领域线上宣讲会 7月20日 19:00-20:10,阿里云智能-产品解决方案架构师李鑫《Web3.0布局深化,链路升级加速音视频出海进程》主题演讲,扫码报名,观看直播!
2020年末:浅谈阿里前端的多样化 舒文:本文,简单分享几个前端领域在阿里的应用场景,附带一些我对前端技术领域的一些思考,期待能够和众多的行业同仁们有交流互动的机会。
【1109 - 1113直播导视 | PPT 下载】开源日再度来袭:实时计算技术的最新探索成果和实践、今年双11究竟有啥黑科技? 本周4个专题页重磅推荐,直播&前沿技术知识两不误,分别是双十一技术回顾&亚洲最大的开源关系型数据库生态大会PostgresConf.CN&数据库&开源日,块办好小板凳前来观看吧!
OTT端性能优化建设之Weex实践之路 | 《优酷OTT互联网大屏前端技术实践》第三章 追求极致的用户体验是个永恒的话题。无论在PC端、移动端,还是IOT端,大家都在尝试着各种技术方案,如提高秒开率,降低白屏时间等等。 在OTT端进行营销活动开发的我们,也面临这一挑战,尽管PC端和Mobile端都有成熟的技术方案,但是到了大屏端,由于终端的差异性,很多技术方案不能完全照搬照抄。 回顾优酷在OTT端的用户体验探索之路,经历了三个阶段:webview时期、自定义内核Blitz时期、weex阶段。
发布会预告 | 政企互联网应用服务如何兼具极速与安全体验? 为了更好助力政企迎接国内数字化发展机遇,阿里云将打通内部CDN、安全能力,并完成自动化运维、应急响应、事件护航三重安全保障体系,形成面向政企的全新的安全加速解决方案。5月20日,阿里云产品运营专家少狂、高级技术专家容恪和技术专家啸坤将带来「政企安全加速解决方案发布会」,与大家交流解决方案的行业应用、技术架构、安全体系以及国密算法的最佳实践。
完美网络体验背后的技术力量,《阿里云互联网多媒体数据存储解决方案蓝皮书》震撼上线! 依托于环境,启蒙于困境,多媒体技术逐步进入快速发展的阶段,《阿里云互联网多媒体存储解决方案蓝皮书》应运而生,为多媒体行业的数字化进程提供有力保障。
开发者如何get技术趋势,实现成长破局?——MVP线上峰会 使众人行,你需要拥有的管理思维;数据库那些事儿,讲讲创新实战;AIoT新技术新场景实战,说干就干!未来已来!云原生战“疫”实操!
【云栖号案例 | 游戏&娱乐】混合云模式助力斗鱼搭建混搭大数据架构 斗鱼自建集群遇到瓶颈,涉及到资源效率和资源成本问题。混合云带来资源成本和资源效率变化最大,保证可以在多活数据中心的状态下支撑更多的业务。
【阿里云新品发布·周刊】第21期:小程序一云多端解决方案,助开发者实现一云多端的业务战略 点击订阅新品发布会! 新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多内容,了解更多 小程序一云多端解决方案 2019年8月14日15时,小程序一云多端解决方案分享会正式开启。
相关文章
- 【ATF】林伟:大数据计算平台的研究与实践
- (转)我所经历的大数据平台发展史(二):非互联网时代 • 下篇
- ElasticSearch实战-日志监控平台
- 支撑EB级规模的大数据平台深度揭秘
- 第三百七十四节,Django+Xadmin打造上线标准的在线教育平台—创建课程app,在models.py文件生成4张表,课程表、课程章节表、课程视频表、课程资源表
- 大数据平台助力核与辐射安全监管
- centos8平台使用xfs文件系统
- EasyNVR流媒体直播之:零基础实现摄像头的全平台直播 (一)内网直播的实现
- 一文读懂数据平台架构演进历史
- 在 SAP 云平台上部署和运行 Docker 应用
- .NET平台机器学习组件-Infer.NET(三) Learner API—数据映射与序列化
- utools快速上手心得、给你安利一款国产良心软件uTools工具--uTools 新一代效率工具平台:怎样安装和使用?详细方法?打工人必看、高效工作、提高效率、提高生产力
- RK3399平台开发系列讲解添加白名单
- 用python采集四大电商平台商品数据进行对比
- 爬取电商平台数据,python爬取某维商品数据
- 现代数据平台要实现自助用数,要解决的三个问题
- 网络货运平台要智能,安全的数据底座少不了
- ITTC数据挖掘平台介绍(五) 数据导入导出向导和报告生成
- Poseidon 系统是一个日志搜索平台——认证看链接ppt,本质是索引的倒排列表和原始日志数据都存在HDFS,而文档和倒排的元数据都在NOSQL里,同时针对单个filed都使用了独立索引,使用MR来索引和搜索
- 大数据Hadoop之——新一代流式数据湖平台 Apache Hudi
- RK3399平台开发系列讲解(项目实践篇)1.13、广告机项目介绍
- 4. 业务数据采集平台搭建
- 【云原生 | 29】Docker运行大数据经典分布式平台Hadoop
- 数据接入平台(DIP)系列文章之一|功能及架构浅析
- 安卓手机云测平台获取设备名称