用tophat和cufflinks分析RNAseq数据[转载]
转自:http://blog.sciencenet.cn/home.php?mod=space&uid=635619&do=blog&id=884213
//今天看到一篇非常好的讲解RNA-seq的文章,mark一下。
1.基本步骤
RNAseq分析大致分下面几个步骤:
①首先要把测到的序列map到基因组上,
②然后根据map到的区段对细胞构建转录本,
③然后比较几种细胞的转录本并且合并,
④最后衡量差异和可变剪切和其他的分析。
2.mapping
可以使用哈希的方法比对,但是由于基因组重复序列太高,效率很低;
所以有了Burrows-Wheeler变换,BWA,Bowtie 和SOAP2都是用它。
Burrows-Wheeler变换是一种文本压缩算法,对于一个精确的序列查找,最多在给定序列的长度的次数里就能找到匹配。
重要问题***:
因为一条RNA不一定是一个外显子表达出来的,也有可能是几个外显子结合在了一起,原来基因里的内含子被空了出来,这些内含子的长度从五十到十万个碱基不等;
如果直接用DNAseq的方法的话去在基因组里寻找,有些正好在两个exon连接处的序列就会有错配,而且有些在进化过程中遗漏下来的假基因是没有intron的,这样就导致有些序列会被map到假基因上去,使假基因的表达变得很高,所以,传统的bwa和bowtie在RNAseq里都不是最好的选择。
3.构建转录本
Mapping完了以后,cufflinks就可以把map到基因组里的序列组装成一个转录组了,这个转录组理论上包含了所有当时细胞里的所有mRNA,组装好的转录组包含了可能的剪切信息和所有转录的表达量,这个表达量是根据map到基因组的序列的总数和每个转录片断的长度进行归一化的,听起来比较难懂,它是对于在转录片断里的每一千个碱基对,在每一百万个成功map的序列中,map在这一千个碱基对上的序列的比例,fragments per kilobase of transcript per million mapped fragments (FKPM)。
计算公式:
在公式里,C代表的是map在这一千个碱基对上的序列的个数,N是所有成功map的序列的个数,L是转录片断的长度。
相关文章
- R_Studio(决策树算法)鸢尾花卉数据集Iris是一类多重变量分析的数据集【精】
- R_Studio(学生成绩)对数据缺失值md.pattern()、异常值分析(箱线图)
- 胖子哥的大数据之路(三)- 数据仓库的需求分析该怎么做
- Web 数据存储总结
- R语言实现金融数据的时间序列分析及建模
- 同步大数据发展与大数据法制,方能形成一个良性循环
- 数据分析师、数据科学家常见的77个面试问题
- 怎样比较、分析两组或者两组以上的数据?
- 分析Python中解析构建数据知识
- 目前阻碍大数据成功的常见问题有哪些
- 业务实践,数据分析应从细节入手_数据分析师
- vue框架,数据展示和分析,报告管理界面
- spark更新数据状态(updateStateByKey)
- Math之ARIMA:基于statsmodels库利用ARIMA算法对太阳黑子年数据(来自美国国家海洋和大气管理局)实现回归预测(ADF检验+LB检验+DW检验+ACF/PACF图)案例
- 从分析性数据库ADS中导出数据
- DataScience:数据生成之在原始数据上添加小量噪声(可自定义噪声)进而实现构造新数据(dataframe格式数据存储案例)
- ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘
- ML之FE:利用FE特征工程(分析两两数值型特征之间的相关性)对AllstateClaimsSeverity(Kaggle2016竞赛)数据集实现索赔成本值的回归预测
- Python分析并绘制可视化动态地图,实时查询全球疫情数据(11月最新...)
- 数学建模学习(3):数据统计与分析之随机数
- 云小课 | 大数据融合分析:GaussDW(DWS)轻松导入MRS-Hive数据源
- 【机器学习项目实战】数据相关岗位薪资水平影响因素研究分析
- Vue学习之--------Vue中收集表单数据(使用v-model 实现双向数据绑定、代码实现)(2022/7/18)
- Android采用Volley具体的例子展示完整的异步加载数据(一)
- monocle使用sct整合数据integration还是rna中的counts数据 轨迹分析 拟时序
- Adapter数据变化改变现有View的实现原理及案例
- 共用体类型数据的特点
- python连接 elasticsearch 查询数据,支持分页
- 行为分析(商用级别)03 - 官方数据集,模型训练与测试
- 【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
- 滑动奇异频谱分析:数据驱动的非平稳信号分解工具(Matlab代码实现)
- 数字转型 | 论指标解析在数据治理中的作用