zl程序教程

您现在的位置是:首页 >  其他

当前栏目

批量处理数据的技巧~从零到壹:10元转录组分析

2023-03-07 09:09:25 时间

效率 一个一个地处理数据,想想都好麻烦~批量处理才能感受到科技的力量~

处理大样本数据可能遇到的问题

首先,你可以复习下面的教程10元转录组分析:这次真的是干货了~灰常干 这样你会得到一个linux系统的云服务器然后,你搜索文献发现有个大牛发了一篇文章里面有几百里样本的RNA-seq原始数据,这个数据被共享在了SRA数据库中,老板说,去挖一下看看。你的内心世界,可能是"哈哈,刚刚学会下载mapping+分析,正好配上用场,而且按照Chris小站教程才10元还不贵,珂珂,撸起袖子~~~"然后,结果是"你妹啊~ 200多例一个一个下,一个一个解压,一个一个mapping这得啥时候弄完啊!!!"半个月过去了,进度才三分之一~~~~"你妹啊~云服务器硬盘不够用了~~~"

解决上面的问题

测序数据挖掘的步骤大致为下载与解压:按照以下教程从零到壹:从SRA下载到分析~纯干货 Mapping:按照以下教程从零到壹:10元~Mapping神器STAR的安装及用 解决硬盘不够用的问题:按照以下教程从零到壹:10元转录组分析~硬盘不够用咋办 下面是解决办法:初级版用以下符号命令a && 命令b这样运行完命令a之后就会运行命令b,但是如果a出现错误,b是无法接着运行的。命令a | 命令b 这样代表同时运行命令a和命令b,任何一个出错不会影响其他。但是要估量自己服务器能力,比如同时mapping两个样本,服务器一定会提示“已杀死”这样一些简单操作就可以连续运行了,比如cp(拷贝),mv(移动),gzip(解压),SRA tools等等。

神器For循环

对于懂shell编程的大神们上面的问题都是小case,所以大神请飘过~~对于我们这些跨行初学者来说,下面尽量用能粗浅的话解释简单说一下咋用在linux系统中你可以用for循环连续数数,比如从1到10具体命令如下for i in {1..10}; do echo i; done这样在你会得到1 2 3 4 。。。9 10如果你要下载、解压或者Mapping的文件名字后面只有数字在变,那么我们就可以利用这个语句来实现批量处理。例如下载可以用下面的命令for i in {27..50};do ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR100/SRR1001"i".sra /mydata;done这样你可以顺序从SRR100127.sra一直下载到SRR100150.sra,并且保存在/mydata文件夹中。例如解压可以用下面的命令for i in {27..50};do fastq-dump --split-3 -A SRR1001"(seq 1 10) (seq 15 18) (seq 111 111);do echo i;done1 2 3 4 5 6 7 8 9 10 15 16 17 18 111大家应该看懂了吧。然后,自己领悟一下,就知道了~~~~你也可以吧 && 和 | 与for循环结合起来,这样还能组合出来很多技巧。

你需要注意的问题

首先,由于是批量操作,要计算好硬盘空间,不够了要记得扩容哦,扩容教程在下面从零到壹:10元转录组分析~硬盘不够用咋办 其次,由于是批量操作,千万别总去尝试同时进行Mapping | Mapping,否则服务器会经常自杀。最后,你可能会注意到终端操作的问题,就是操作掉线,然后之前执行的进程就被关掉了。这个可以解决,不过是在下一次的教程中,大家关注哦。

没错封面还是跟Apple有关,虽然Apple不再给人惊艳的产品,不再试图改变某个领域,但Think Different的精神犹存。最近在看《Becoming Steve Jobs》这本书,理解了为啥皮克斯讲故事都是那个套路,正如乔布斯一生一样,人生的G点往往不在成功的那一刻,而是反败为胜的转折。下面的链接是我youku中上传的乔布斯重回Apple的珍贵视频,分享给大家 乔布斯回归http://v.youku.com/v_show/id_XMzUwMTUyMjM2.html?spm=a2hzp.8253869.0.0