zl程序教程

您现在的位置是:首页 >  大数据

当前栏目

微博关注者数量在计算中的作用

计算 作用 数量 关注 微博
2023-09-14 08:58:22 时间

郑昀 20101011

    一个微博用户的关注者数量(在Twitter中称为Followers),有几种用途:

一、对于Google来说,由于一个用户关注另一个用户,相当于一个页面指向另一个页面,所以PageRank的算法大致可照搬。

    "One user following another in social media is analogous to one page linking to another on the Web. Both are a form of recommendation," Singhal tells Technology Review. "As high-quality pages link to another page on the Web, the quality of the linked-to page goes up. Likewise, in social media, as established users follow another user, the quality of the followed user goes up as well."

    当决定哪一条微博消息(Tweet)要显示在搜索结果中前列时,Google不单单关注followers的数量,还关注这些followers的价值。

 

二、在热门消息榜类型的应用里,却要反其道而行之,要削减followers多的用户权重。

    对于微博客来说,如果要做一个热门消息实时榜单,有一个问题绕不过去,那就是对人气特别旺的帐号如何处理?在做Twitter锐推榜时,很多人提出这个问题,能不能让那些followers数量巨大的人少上榜,更有人建议让上榜阈值与该用户的followers数挂钩,比如成反比,followers越多,上榜越困难。

    由于followers数与微博消息的价值之间没有明确的关联,所以不适合简单粗暴地成反比。

    在针对国内微博网站,如新浪微博,制作热门转发消息实时榜单(t.rtmeme.com)时,我采用如下简单的规则,来减少名人上榜几率。

 

加入关注者数量的考量

    一条消息是否能够上榜,当然取决于它的转发数和评论数,但是名人关注者多(粉丝多),理所当然地有更大几率被转发,然而名人的消息未必有什么价值。t.rtmeme.com虽然一直在阻止明星推上榜,但名人或者说人气比较旺的用户,却很难遏制。

    所以需要在t.rtmeme.com上榜公式中引入关注者数量这个参数。

    一般来说,在新浪微博中,1K个关注者意味着转发数可能是个位数的,10K个关注者时转发数可能平均达到两位数,所以可以近似一个转发比率1:1K。

    那么一个关注者数为88万的名人@冯小刚 ,他的转发因子是880(即期望平均转发数是880次);此时,如果他有一条消息被转发了1000次,那么1000/880=1.14,这个数字代表转发数是否超过预期。

    下面再多举些例子:

关注者数为31352的@作业本 ,转发因子是31;他的某消息转发数是544,那么544/31=17.5,就说明该消息价值明显优于冯小刚的那条。

关注者数为1,894,927的@李开复 ,转发因子是1894;某消息转发数是5351,那么5351/1984=2.69,也还在水准之上。

关注者数为1,981,311的@任志强 ,他某条被转发了85次的消息转发水准度就是85/1981=0.04,就很不值得上榜(如果不考虑这个因子,那么凭借转发数多评论数多,它肯定可以上榜)。

关注者数为917,734的@头条新闻 ,他某条转发了320次的消息,水准度是320/917=0.34,相当一般的消息,可入可不入榜。

关注者数为434,135的@新浪娱乐 ,某条转发了99次的消息,水准度是99/434=0.22,所以说很多新浪自己维护的帐号,所发的消息大多不值得上榜。

 转发水准度

    因此设置一个转发水准度的阈值,比如要求每条上榜消息的转发水准度大于0.5,就能避免大明星、名人、人气王们随随便便发条消息就能上榜。

[完]


【前端算法】独一无二的出现次数,统计次数加去重 给你一个整数数组 arr,请你帮忙统计数组中每个数的出现次数。 如果每个数的出现次数都是独一无二的,就返回 true;否则返回 false。
实体列表缓存(最土的办法实现百万级性能) 在实际项目开发中,经常遇到有一些表数据很少(1000行以内),不会频繁修改(平均每行几个小时才会修改一次),例如配置表、分类表等。 这样的表,往往可以接受三五秒甚至更长的延迟,正是最适合使用缓存的地方。 实体缓存:一次性加载全表数据进入内存,供上层多维度查询!
如何做到 99% 的搜索请求延迟低于 150 毫秒?LinkedIn 全新消息搜索平台实践 即时通讯的兴起改变了我们的交流方式。与来回的电子邮件相比,我们发送和接收消息的数量和速度都要高得多。在进行即时对话时,我们也希望能够轻松地搜索重要的短语、瞬间或有参考价值的东西。数据交换请求数量的快速增长为消息传递的可伸缩和快速发现带来了许多新的工程挑战。
Giraph源码分析(八)—— 统计每个SuperStep中参与计算的顶点数目 科研中,需要分析在每次迭代过程中参与计算的顶点数目,来进一步优化系统。比如,在SSSP的compute()方法最后一行,都会把当前顶点voteToHalt,即变为InActive状态。所以每次迭代完成后,所有顶点都是InActive状态。
网站内容的收录量和索引量的区别和联系 百度的收录分为索引量和收录量两种,站长一般会认为索引量等同收录量,二者并无差别。但是在实际搜索结果中,我们常常会发现,通过关键词能搜索到内容,但是通过复制完整标题或摘录却搜索不出结果。为何如此?武汉SEO和大家一起来看看收录量和索引两的差别。
比阅读量和粉丝数更重要的是用户ARPU值 对于多数内容创业者而言,一个公众号的粉丝数和阅读量是有上限/瓶颈的。在这种情况下,得尽可能挖掘一个公众号的商业价值,这时候就得注重一个目标,叫做ARPU值。在新媒体运营行业,我们还没有见过谁对它有清晰的解释和定义。
郑昀 ☑移动数据业务 times;6年 ☑语义聚合 times;4年 ☑O2O times;5年的一个老兵。