SolrQuery挖掘--单维度聚合分析
分析 -- 聚合 挖掘 维度
2023-09-14 08:56:51 时间
单维度聚合分析
为什么选择搜索引擎
单维度聚合分析应该是各种分析统计中最为简单、直接。
对于主动搜索、被动搜索一体的应用场景,有登录和无登陆等统一兼顾。并且提供接口服务,按需返回维度信息,并且可以复用。
无疑采取搜索引擎,依赖搜索引擎的facet统计功能,最为直接、快捷、有效、低沉本。前提是对搜索引擎比较熟悉,否则光一个
搜索引擎就折腾死人了。
单维度聚合分析意义
单维度分析意义主要在掌握数据属性、用户属性、热点发现。
例如:某个产品上某个用户一段时间搜索词聚合,然后对聚合词语义分析,将可以分析出该用户的某些历史偏好、行为特征、消费
倾向、社区角色等。
例如:一段时间内产品上用户在搜什么,那些是热点词,是否与运营活动相关,是否是产品的重点词范畴等。
例如:将关键词、时间、产品倒排起来,那么就可以知道任何时间段内,具体产品活跃的关键词分布,间接知晓产品的“语义集合”
例如:将关键词、用户、时间倒排起来,那么很容易知晓那些词偏女性、那些词偏男性、那些词中性,用户那个时候搜的多、是那些词
例如:将关键词、排序、翻页、命中倒排起来,那么很容易发现点击热点、超时分析等。
大家都关注结果去了,没有人喜欢过程,尤其是周期性、长期的过程。在淘宝上成交量、客单价为主题的大环境,任何和交易不相关
、任何不能直接影响交易、任何只是提升用户细微体验等等工作,都是一个“弱势”需求,甚至等于不是需求。
所以,技术即使实现,也不见得有人会关注、有人去用。KPI中不会因为用户体验而打分,KPI中不会因为改善排序效果而肯定。
因为本身这些不好评估效果,特别是短期内的效果。更本质的可能是这些“无关交易”!
单维度聚合关键问题
维度的选择
既然是单维度聚合,那么维度的选择就非常重要了。这个需要不是技术一方面说的算,更多的依赖业务。
而往往习惯了运营为主、人肉、经验为主的 淘宝居多业务,对交易之位的属性关注度明显的不在意。
也甚至出现,计算出来的结果会在 白名单、黑名单过滤下,面目全非。
通常基本的维度不可少:时间、业务、人、关键词等。也即时间、地点、人物、事件。
输入就是线上日志,输出就是格式化文档或者倒排索引结构。
在输入和输出之间就是转换。转换的过程其实非常麻烦的问题,只看一端只觉得问题很easy!
麻烦之处:
提取输出 2012-08-09T14:50:33Z# amp;search4product-0# amp;supplier_id:649289# amp;sort:weight1 desc# amp;hits:1762# amp;QTime:123 构建solr document
数据分析:5个数据相关性指标 相似性度量是许多数据分析和机器学习任务中的重要工具,使我们能够比较和评估不同数据片段之间的相似性。有许多不同的指标可用,每个指标各有利弊,适用于不同的数据类型和任务。
(1)提取规则
日志总是有许多莫名其妙的格式、内容、乱码。很难有一个100%的规则,满足所有请求日志。 即使有,也很难很容易的扩展到其他应用。例如solr 日志格式是有规律的,但是用户内容不一定有规律。 基于文本标签提取,自然会遇到内容的标签问题。提取完毕之后,schema结构具体应用是不一样的。(2)提取速度
越精细越耗时,并且java String对象处理起来比较方便,却速度上远远低于char,而char处理不是很方便。 对应solr query log 还是建议采取char为主、StringBuidler为核心变量。(3)适应性
一开始都是追求100%解析通过,实际总有那么一些内容,搅合常规处理方法。为了适应这些非常规的请求, 往往会将之前的处理规则打破或者添加更多条件,然后整体性能突然下降。建议:能处理的快速处理,不能处理的 单独输入到一个文本,对于这些非常规的特殊处理。 单维度聚合实现样例 对于终搜 solr 日志 输入 2012-08-09 14:50:33,396 INFO [org.apache.solr.core.SolrCore] - [search4product-0] webapp=null path=/select params={q=+supplier_id% 3A649289 amp;sort=weight1+desc amp;rows=30 amp;start=0 amp;facet=true amp;facet.field=cat_path amp;hl.usePhraseHighlighter=false amp;echoParams=explicit amp;hl=true amp;hl.fl=title amp;hl.requireFieldMatch=true amp;hl.simple.pre= em amp;hl.simple.post= /em amp;hl.snippets=3 amp;hl.fragsize=2000 amp;timeAllowed=2500} hits=1762 status=0 QTime=123 2012-08-09 14:50:33,396 INFO [org.apache.solr.core.SolrCore] - [search4product-0] webapp=null path=/select params={q=+supplier_id:649289 amp;sort=weight1 desc amp;rows=30 amp;start=0 amp;facet=true amp;facet.field=cat_path amp;hl.usePhraseHighlighter=false amp;echoParams=explicit amp;hl=true amp;hl.fl=title amp;hl.requireFieldMatch=true amp;hl.simple.pre= em amp;hl.simple.post= /em amp;hl.snippets=3 amp;hl.fragsize=2000 amp;timeAllowed=2500} hits=1762 status=0 QTime=123提取输出 2012-08-09T14:50:33Z# amp;search4product-0# amp;supplier_id:649289# amp;sort:weight1 desc# amp;hits:1762# amp;QTime:123 构建solr document
数据分析:5个数据相关性指标 相似性度量是许多数据分析和机器学习任务中的重要工具,使我们能够比较和评估不同数据片段之间的相似性。有许多不同的指标可用,每个指标各有利弊,适用于不同的数据类型和任务。
相关文章
- HDFS读文件过程分析:读取文件的Block数据
- 乐观锁和悲观锁的区别(最全面的分析)
- [kernel]内核日志及printk结构分析
- 中国大数据市场规模分析及预测
- 小白学数据分析--留存率分析_I次日留存率突然下降了50%
- apollo源码分析过程:构造apollo签名请求
- 转两次hbase丢失数据的故障及原因分析--hbase split过程
- 大叔案例分享(3)用户行为分析--见证scala的强大
- 小白学数据分析--留存率分析_I次日留存率突然下降了50%
- [移动APP]移动端菜谱工具应用竞品分析
- sonarqube通过sonarqube maven插件分析maven工程使用的mvn命令示例
- 如何分析SAPPSPRO-S_MAT_ENHANC_COMM问题
- paip.语义分析--单字词名词表
- 音视频直播开发问题分析总结 -- 花屏&绿屏
- 从源码分析DEARGUI之画图和删图
- AI论文解读丨融合视觉、语义、关系多模态信息的文档版面分析架构VSR
- 【华为云技术分享】深入浅出Sqoop之迁移过程源码分析
- 智能床、智能床垫、智能睡眠监測器的调研分析
- 【Android 逆向】ART 函数抽取加壳 ⑤ ( unistd.h#execve 函数分析 | 使用自定义的 myexecve 函数替换 libc.so#execve 函数 )
- 【Android 逆向】Android 进程注入工具开发 ( 注入代码分析 | 调试进程 ATTACH 附着目标进程 | 读取目标函数寄存器值并存档 )
- C++ Primer 学习笔记_41_STL实践与分析(15)--先来看看算法【下一个】
- 单纯的富集分析AM1_clusterprolifer AM1 marker与纤维化交集的基因 --富集分析 单纯的富集分析AM1_clusterprolifer_单纯基因做富集分析只做富集分析
- 爬虫日记(76):Scrapy的命令行源码分析
- Android中View绘制流程以及invalidate()等相关方法分析
- 软件测试 -- 进阶 2 软件测试分析
- SQL Server 2005 实现数据库同步备份 过程--结果---分析
- 【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--1 赛后总结与分析
- 【计算机三级数据库技术】第2章 信息系统需求分析完整知识体系--附思维导图
- HCIE-Cloud Computing LAB备考第二步:逐题攻破--第二题:FusionAccess--题目分析--思维导图+题目=建立逻辑
- HCIE-Cloud Computing LAB备考第二步:逐题攻破--第三题:迁移-题目分析
- 以前写过的项目再次打开爆红问题分析详解