机器学习与算法面试太难?
机器学习与算法面试太难?
来源:
https://mp.weixin.qq.com/s/GrkCvU2Ia_mEaQmiffLotQ
作者:石晓文
八月参加了一些提前批的面试,包括阿里、百度、头条、贝壳、一点资讯等。整理了一些面试题,分享给大家。
一、机器学习基础题
1、LSTM的公式
2、RNN为什么出现梯度消失及BPTT的推导
3、DQN的基本原理么
4、GBDT和随机森林有什么区别
5、GBDT的原理,如何做分类和回归
6、随机森林的随机体现在哪方面
7、Wide &Deep的原理
8、GBDT+LR是怎么做的?
9、DQN模型为什么要做经验回放
10、数据之间如果不是独立同分布的会怎样
11、AUC的原理介绍一下
12、XGBOOst和GBDT的区别。
13、强化学习和监督学习的区别
14、神经网络里面的损失函数有哪些
15、机器学习中常见的激活函数有哪些?为什么通常需要零均值?
16、DeepFM介绍
17、FM推导
18、boosting和bagging的区别?
19、bagging为什么能减小方差?
20、交叉熵损失函数,0-1分类的交叉熵损失函数的形式。什么是凸函数?0-1分类如果用平方损失为什么用交叉熵而不是平方损失?
21、L1和L2有什么区别,从数学角度解释L2为什么能提升模型的泛化能力。
22、深度学习中,L2和dropout有哪些区别?
23、L1正则化有哪些好处
24、如果有一万个地理坐标,转换成1-10000的数,可以用决策树么?
25、CART分类树和ID3以及C4.5有什么区别?
26、树集成模型有哪几种实现方式:Bagging和Boosting,回答过程中又问到了很多细节。随即森林的随机体现在哪些方面,AdaBoost是如何改变样本权重,GBDT分类树拟合的是什么?
27、Dueling DQN和DQN有什么区别
28、early stop对参数有什么影响?
二、数据结构算法题
1、K个有序数组,找一个长度最小的区间,在这个区间里至少包含每个数组各一个数
2、n个[0,n)的数,求每个数的出现次数(不能开辟额外空间)
3、数组的全排列(空间复杂度O(1))
4、一堆钞票,尽可能均分(利用背包问题的思想)
5、无向无环图中,最短路径的最大值(Floyd算法)
6、层次遍历二叉树
7、字符串的最长公共子序列(动态规划)
8、树的前序遍历和zigzag遍历(非递归)
9、一个数组,所有数组都出现了两次,只有一个数出现了一次,返回这个数(位运算)
10、一个数组,一个数出现了超过一半次数,返回这个数
11、将除法的结果用字符串返回,如果能够除尽,则返回相除的结果,如果不能除尽,则无限循环部分用[]标记。
12、数组排序,假设数组排序后的位次和排序前的位次绝对值差值小于K,有什么比快排好的算法?
13、树中两个节点的第一个的公共祖先。
14、判断是否是回文链表
15、判断两个链表中是否有相同节点
三、实践题
1、如果你想往模型中加入一个特征,如何判定这个特征是否有效?
2、LR和FM的区别?FM需要进行交叉特征的选择么?如果在LR选了一部分特征做交叉之后,取得了比FM更好的效果,这是为什么?如果FM变成DeepFM之后,效果超过了LR,这又是为什么?
3、如果逻辑回归的所有样本的都是正样本, 那么它学出来的超平面是怎样的?
4、哪些场景下的分类问题不适用于交叉熵损失函数?
5、推荐系统中你认为最重要的环节是什么?
6、多臂tiger machine中,有许多方法,比如e-greedy,timponson采样,UCB,这些方法都有哪些适用场景?
7、如何预测一家店分品类的销量
8、信息流采样,有n份数据,但是n的长度并不知道,设计一个采样算法,使得每份被选择的概率是相同的。
9、模型在线下评估和线上使用时,往往出现线上实际效果不如线下效果的情况,请分析可能的原因。
10、在CTR预估问题中,假设训练数据的正负样本数为1:4,测试数据中的正负样本数也为1:4,那么此时模型对测试集,学到的平均点击率为1/(1+4),假设此时采取了欠采样策略,使正负样本数为1:1,对同样的测试集进行预测,平均点击率应该是多少?(样本量很大,初始总样本数为10亿)
相关文章
- 【机器学习】ID3算法构建决策树
- 机器学习(5): K-means 算法
- 算法工程师<机器学习基础>
- 机器学习算法评价指标
- 从软件工程的角度写机器学习3——主要监督学习算法的工程性分析
- Py之scikit-learn:机器学习sklearn库的简介、六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类)、安装、使用方法(实际问题中如何选择最合适的机器学习算法)之详细攻略
- DL之RNN:人工智能为你写诗——基于TF利用RNN算法实现【机器为你写诗】、训练&测试过程全记录
- Interview:算法岗位面试—上海某公司算法岗位(偏机器学习,互联网金融行业)技术面试考点之数据结构相关考察点—斐波那契数列、八皇后问题、两种LCS问题
- ML之回归预测:机器学习中的各种Regression回归算法、关键步骤配图
- ML之ECS:利用ECS的PAI进行傻瓜式操作机器学习的算法
- TF之LiR:基于tensorflow实现机器学习之线性回归算法
- 基于机器学习算法与历史数据预测未来的站点关闭(Matlab代码实现)
- 机器学习(三十三):Apriori 算法进行关联规则挖掘(实战)
- 【机器学习】9种回归算法及实例总结,建议学习收藏
- 【阶段三】Python机器学习25篇:机器学习项目实战:LigthGBM算法的核心思想、原理与LightGBM分类模型
- 【原创】机器学习算法之:决策树
- 【大数据 & AI 人工智能】数据科学家必学的 9 个核心机器学习算法
- 一文读懂机器学习,大数据/自然语言处理/算法全有了……
- 机器学习算法选择——特征提取
- Apache Flink vs Apache Spark——感觉二者是互相抄袭啊 看谁的好就抄过来 Flink支持在runtime中的有环数据流,这样表示机器学习算法更有效而且更有效率
- Finding Similar Items 文本相似度计算的算法——机器学习、词向量空间cosine、NLTK、diff、Levenshtein距离
- 【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师 笔试题
- 【数据挖掘】2022年2023届秋招宏瓴科技公司机器学习算法工程师 笔试题
- 【机器学习实战】9、利用K-means算法对未标注数据分组
- 【C++ 科学计算】机器学习算法 Dlib 编译安装(ubuntu)
- 阿里云机器学习PAI开源中文NLP算法框架EasyNLP,助力NLP大模型落地