我的农学转数据分析之花花草草
大家好,我是飞哥。
数据分析界育种知识最好、育种界编程最扎实、段子讲得最好的数据分析师,所以:编程+数据分析+育种,就是我的日常工作了。
电脑是研究生时学习的编程,之前没有接触过,计算机登记证书是一个没有,生物统计当年差点没及格,高数和线代还可以但是基本忘完了。就这样,经过金山打字半个月的训练,学会了盲打,研究生三年还是入门了生物信息的大门。
看一下我研究生的日常:(玉米地授粉往事序),数据分析+大田育种,实验是不可能做的,去实验室就是帮助大家装枪头。
上面这张照片是2015年元旦,海南玉米育种基地刚浇过水,那时上午已经有花粉散粉,二话不说,赤脚下地授粉。中间小李师傅帮我照相,因为我要发朋友圈纪念一下,还赋诗如下:“15有啥了不起,空间更新多如蚁,看我玉米地授粉,风和日丽元旦里”。那时的我,还未毕业,对未来充满憧憬,活力四射。
工作几年,边工作边学习,哪里不会学哪里,也积累了一些知识,接触的物种中有:玉米小麦水稻、猪鸡牛羊、林木水产,用到的模型从方差分析到线性模型,从混线模型到广义模型,从GWAS到GS,基本都是R语言+Python+Linux。
有些小伙伴,问我如何入门数据分析?
我的经验是,学习,从来不拘泥于形式,植物的不看动物的书籍?动物的不看林木的论文?林木的不理水产的成果,对我而言不存在的,因为物种是属于应用层,背后模型是类似的,学此可以懂彼。比如,学习GWAS我发现人类的知识更系统,于是学起来诸如多基因得分、孟德尔随机化也毫无违和感(统计遗传学:第八章,基因型数据质控)。
其实网络上的数据分析师都是从Excel到Python,然后到机器学习。而农业这一块,混合线性模型是绕不过去的槛,所以这里总结一下我的技能。
算不上技能树,只能算是花花草草:
1, 生物统计相关数据分析
汇总统计分析
结果报表及可视化
- 最大值、最小值、平均数、方差、标准差、变异系数等报表(支持分组)
- 箱线图、直方图、折线图、小提琴图、雷达图等
方差分析
结果包括:方差分析表、多重比较结果、以及可视化
- 单因素方差分析
- 多因素方差分析
- 裂区试验方差分析
- 裂裂区试验方差分析
- 拉丁方和格子方方差分析
回归分析
结果包括:解释R2、拟合方程、模型比较,以及可视化
- 单变量回归分析
- 多变量回归分析
- 逐步回归回归分析
- 曲线回归分析
- 生长曲线回归分析
相关性分析及通径分析
结果包括:相关性值和显著性检验,可视化,通径分析的公式
- 相关性分析
- 通径分析
主成分分析及聚类分析
- 主成分分析,可视化
- 聚类分析,可视化
- 主坐标分析、冗余分析、因子分析等
混合线性模型
- 混合线性模型计算BLUE值和BLUP值
- alpha-lattice试验数据分析
- 增广试验数据分析
- 广义线性模型,logistic、probit分析
- 广义线性混合模型
- 重复测量数据分析
2, 作物数据分析
- 一年多点、多年多点数据分析,遗传力计算,BLUE值,BLUP值计算
- 基因与环境互作分析:AMMI模型,GGE Biplot模型,F-W回归模型
- Alpha-lattice试验分析、增广试验分析
- 配合力分析:双列杂交,不完全双列杂交,NCII分析
- 空间分析
3, 动物、水产数据分析
- 计算近交系数和亲缘关系系数
- 系谱可视化及系谱错误检测
- 单性状动物模型分析,遗传力,BLUP育种值
- 多性状动物模型,遗传力,遗传相关,BLUP育种值
- 阈值性状分析
- 重复力模型,母体效应模型
- 阈值与阈值多性状模型
- 阈值与连续多性状模型
4,群体遗传分析
- PCA分析
- admixture群体结构分析
- 群体血缘分析
- 家系划分分析
- 亲子鉴定分析
- 半同胞全同胞关系鉴定分析
5,GWAS分析和QTL定位
- 阈值性状,连续性状,多性状GWAS分析,纵向数据GWAS分析
- GLM模型,LMM模型
- GWAS可视化:QQ图,曼哈顿图,SNP密度图
- 基因注释和富集:GO,KEGG
- SNP解释百分比(PVE)
- 多基因得分(PGS)和孟德尔随机化(MR)
- 遗传图谱构建,QTL分析、基因注释和富集分析
6,基因组选择分析
结果包括:5层交叉验证的准确性和无偏性评估,重复20次。
- 基因型数据质控、填充
- 亲缘关系G矩阵、H矩阵构建及热图可视化
- GBLUP,ssGBLUP模型(一步法)
- 贝叶斯类模型:BayesA,BayesB,BayesCpi,BayesLASSO
- 机器学习类:支持向量机、随机森林、神经网络、深度学习、函数回归