zl程序教程

您现在的位置是:首页 >  云平台

当前栏目

视频网站数据平台变迁之路(二)

平台数据网站 视频 变迁
2023-09-14 09:00:25 时间
摘要:上一篇主要介绍了 数据系统架构V1 总体架构及 数据采集与数据存储,本篇我们来聊聊架构下的数据分析遇到的各种情况
2.数据分析

_
参考数据系统架构V1,当时的分析服务器是个多台单独的服务器。由于每台服务器分析业务互相独立,算不上分布式计算也算不上集群。当时单台分析服务器工作流程如下:

crontab 执行任务 启动脚本,从磁盘阵列同步上一天全天日志到本地磁盘 启动程序,从配置文件中找到属于本分析服务器IP的分析任务 执行分析任务,并将结果写入数据库或文件里 执行下一个分析任务...

分析的整体代码是通过PHP自主研发的一个小型框架,这里的部署和调整还算比较方便,我们大部分时间需要维护的只是一个各服务器分析任务的配置文件,扩容时也比较简单。

没多久,我们就上了新业务,需要分析视频的播放量和停留时间。播放量还好比PV值略小,但停留时间采用的发心跳的方式,所以日志量就比较大了。对当时的整体架构来说,要有很大的改动,上篇提到的请求会先通过php根据用户cookie的Hash转发到不同的服务器上就是为了满足这个业务的。

为什么我们要做Hash转发,而不是直接负载均衡到每台服务器呢?主要是为了满足分布式UV计算的(UV是unique visitor的简写,是指通过互联网访问、浏览这个网页的自然人),由于UV分析时需要去除重复,所以Hash以后每台采集服务器日志中的用户都不会重复,这样就满足了需求。

当时我们有各种维度的UV数据需求。在当前系统架构下,每台服务器需要从磁盘阵列上获取上一天全量的日志进行分析任务。当日志量一大,分析服务器的内存和磁盘都成了瓶颈。由于单台服务器的计算能力有限,所以我们转成了分布式数据处理。具体做了下面的三个步骤:

采集服务器的更改,同一用户的数据会在同一台服务器上 分析服务器的更改,从磁盘阵列获取分析任务所需日志,而不是上一天的全量日志 报表系统的更改,每个ip计算的数据会在数据库中有个标识,计算总体的UV数据时需要累加

经过上面的三个步骤,一个简单的分布式计算就完成了。举个栗子,采集服务器有6台,分析服务器有2台,那么每台分析服务器拿3份日志即可,分析完成以后数据库中UV数据的IP维度上有两个IP的值,进行累加既是UV总量。

总结一下遇到的问题:

服务器监控层面的缺失,包括单点服务器健康状态(负载、磁盘、心跳) 单点宕机时,分析任务在其它服务器下的补救 多人协同开发下,分析服务器配置文件管理混乱(老业务变更优先级,新业务加入,单点宕机时的补救===),经常发生代码冲突 某些需求无法满足,例如月UV的数据统计,这种需要将一个月几T、几十T的日志读取并按维度计算独立用户的需求。究其原因主要是磁盘阵列同步数据到分析服务器的时间太长 分析服务器任务列表中某一任务中止以后,其它任务也随之中止 扩容的时候越来越麻烦,采集、分析、报表都要跟着有所变动
聚焦Web3.0时代下元宇宙社交新浪潮,阿里云特此追热点规划音视频领域线上宣讲会 7月20日 19:00-20:10,阿里云智能-产品解决方案架构师李鑫《Web3.0布局深化,链路升级加速音视频出海进程》主题演讲,扫码报名,观看直播!
2020年末:浅谈阿里前端的多样化 舒文:本文,简单分享几个前端领域在阿里的应用场景,附带一些我对前端技术领域的一些思考,期待能够和众多的行业同仁们有交流互动的机会。
【1109 - 1113直播导视 | PPT 下载】开源日再度来袭:实时计算技术的最新探索成果和实践、今年双11究竟有啥黑科技? 本周4个专题页重磅推荐,直播&前沿技术知识两不误,分别是双十一技术回顾&亚洲最大的开源关系型数据库生态大会PostgresConf.CN&数据库&开源日,块办好小板凳前来观看吧!
OTT端性能优化建设之Weex实践之路 | 《优酷OTT互联网大屏前端技术实践》第三章 追求极致的用户体验是个永恒的话题。无论在PC端、移动端,还是IOT端,大家都在尝试着各种技术方案,如提高秒开率,降低白屏时间等等。 在OTT端进行营销活动开发的我们,也面临这一挑战,尽管PC端和Mobile端都有成熟的技术方案,但是到了大屏端,由于终端的差异性,很多技术方案不能完全照搬照抄。 回顾优酷在OTT端的用户体验探索之路,经历了三个阶段:webview时期、自定义内核Blitz时期、weex阶段。
发布会预告 | 政企互联网应用服务如何兼具极速与安全体验? 为了更好助力政企迎接国内数字化发展机遇,阿里云将打通内部CDN、安全能力,并完成自动化运维、应急响应、事件护航三重安全保障体系,形成面向政企的全新的安全加速解决方案。5月20日,阿里云产品运营专家少狂、高级技术专家容恪和技术专家啸坤将带来「政企安全加速解决方案发布会」,与大家交流解决方案的行业应用、技术架构、安全体系以及国密算法的最佳实践。
完美网络体验背后的技术力量,《阿里云互联网多媒体数据存储解决方案蓝皮书》震撼上线! 依托于环境,启蒙于困境,多媒体技术逐步进入快速发展的阶段,《阿里云互联网多媒体存储解决方案蓝皮书》应运而生,为多媒体行业的数字化进程提供有力保障。
开发者如何get技术趋势,实现成长破局?——MVP线上峰会 使众人行,你需要拥有的管理思维;数据库那些事儿,讲讲创新实战;AIoT新技术新场景实战,说干就干!未来已来!云原生战“疫”实操!
【云栖号案例 | 游戏&娱乐】混合云模式助力斗鱼搭建混搭大数据架构 斗鱼自建集群遇到瓶颈,涉及到资源效率和资源成本问题。混合云带来资源成本和资源效率变化最大,保证可以在多活数据中心的状态下支撑更多的业务。
【阿里云新品发布·周刊】第21期:小程序一云多端解决方案,助开发者实现一云多端的业务战略 点击订阅新品发布会! 新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多内容,了解更多 小程序一云多端解决方案 2019年8月14日15时,小程序一云多端解决方案分享会正式开启。