zl程序教程

您现在的位置是:首页 >  其他

当前栏目

2013网易实习生数据挖掘工程师

工程师 2013 数据挖掘 网易 实习生
2023-09-14 09:03:13 时间
a) 欠拟合和过拟合的原因分别有哪些?如何避免?  b) 决策树的父节点和子节点的熵的大小?请解释原因。 c) 衡量分类算法的准确率,召回率,F1值。  d) 举例序列模式挖掘算法有哪些?以及他们的应用场景。  二、计算题  1) 给你一组向量a,b  a) 计算二者欧氏距离 b) 计算二者曼哈顿距离 2) 给
a) 欠拟合和过拟合的原因分别有哪些?如何避免? 
b) 决策树的父节点和子节点的熵的大小?请解释原因。 c) 衡量分类算法的准确率,召回率,F1值。 

d) 举例序列模式挖掘算法有哪些?以及他们的应用场景。 


二、计算题 

1) 给你一组向量a,b 
a) 计算二者欧氏距离 b) 计算二者曼哈顿距离 2) 给你一组向量a,b,c,d 

a) 计算a,b的Jaccard相似系数 b) 计算c,d的向量空间余弦相似度 c) 计算c、d的皮尔森相关系数 


三、(题目记得不是很清楚) 

一个文档-词矩阵,给你一个变换公式tfij’=tfij*log(m/dfi);其中tfij代表单词i在文档f中的频率,m代表文档数,dfi含有单词i的文档频率。 

1) 只有一个单词只存在文档中,转换的结果?(具体问题忘记) 2) 有多个单词存在在多个文档中,转换的结果?(具体问题忘记) 3) 公式变换的目的? 


四、推导朴素贝叶斯分类P(c|d),文档d(由若干word组成),求该文档属于类别c的概率,

并说明公式中哪些概率可以利用训练集计算得到。 


五、给你五张人脸图片。 

可以抽取哪些特征?按照列出的特征,写出第一个和最后一个用户的特征向量。 


六、考查ID3算法,根据天气分类outlook/temperature/humidity/windy。(给你一张离散型

的图表数据,一般学过ID3的应该都知道) a) 哪一个属性作为第一个分类属性? b) 画出二层决策树。


 七、购物篮事物(关联规则) 

一个表格:事物ID/购买项。 
1) 提取出关联规则的最大数量是多少?(包括0支持度的规则) 2) 提取的频繁项集的最大长度(最小支持 0) 3) 找出能提取出4-项集的最大数量表达式 

4) 找出一个具有最大支持度的项集(长度为2或更大) 5) 找出一对项a,b,使得{a}- {b}和{b}- {a}有相同置信度。 


八、一个发布优惠劵的网站,如何给用户做出合适的推荐?有哪些方法?设计一个合适的系

统(线下数据处理,存放,线上如何查询?) 





一名数据挖掘工程师给新人整理的入门资料 四年前我一次听说数据挖掘这个词,三年前我学习了数据挖掘理论知识,两年前我做了几个与数据挖掘有关的项目,一年前我成为一名数据挖掘工程师,今天我把数据挖掘入门资料整理了一下,希望能够对新人有帮助。
步骤:建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。 经萍萍提醒,了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外,对实时性要求不强时,可以使用数据库缓存。
1. extern”C”{}的作用好应用场景; 2.写出两者你熟悉的设计模式,及应用场景,可以给出伪代码; 3.TCP中time_wait是表示那种状态,及应用场景,以及起好处和坏处; 二、算法题40分 1. 有一个任务执行机,任务数N 1000,该机器每次只能执行一个任务,而任务之间存在依赖关系, 但是任务之间没有循环依赖,请给出适
1.计算机、统计学等相关专业,具有深厚的统计学、数学、数据挖掘知识,熟悉数据仓库和数据挖掘的相关技术; 2.掌握Oracle、SQLServer、DB2、SybaseIQ等一种以上的主流数据仓库产品; 3.熟悉Python、C++、C语言中的一种或以上; 4.熟悉BusinessObjects、Cognos、M