zl程序教程

您现在的位置是:首页 >  Java

当前栏目

直播后生信入门马拉松答疑合集

2023-02-18 16:30:34 时间

下面是休假期间的微信群答疑笔记

Q1:想咨询一下您多样本的单细胞数据怎么调整组别在图中的顺序

来源2022-生信入门年度交流

这样的代码即可

table(Idents(sce.all))  
unique(sce.all$celltype)
length(unique(sce.all$celltype))

ord = c(  "Endo" ,"Fibro" , 'Pericyte'   ,'SMC',
          'Tcells','Mac')
sce.all$celltype = factor(sce.all$celltype ,levels = ord)
table(sce.all$celltype)

Q2:Xshell7还可以用吗?打开Xshell7的时。会有这样的提示,但打不开Xshell7

来源2022-生信入门年度交流

试试去官网重新下载校园版 https://www.netsarang.com/en/free-for-home-school/

可以去检索一下其他登陆软件,课程中为了教学统一了Xshell,实际上还有很多好用的软件比如MobaXterm

Q3:请问这种情况怎么让每根柱子更长一点?

来源2022-生信入门年度交流

你绘图里面的y应该是有问题的

Q4:gsea的p值可以扩大到什么范围

来源2022-生信入门年度交流

0.25。

Q5:有什么办法把韦恩图中间的圈放下去呢

来源2022-生信入门年度交流

有一个包叫ggvenn,可以画到下边

Q6:有没有老师知道这个lncRNAstrand和mRNAstrand的正负是啥意思啊

来源2022-生信入门年度交流

用IGV看,应该是转录本来源于正义链(+)或反义链(—)DNA

Q7:有没有小伙伴中山大学的starbase数据库怎么进入呀

来源2022-生信入门年度交流

你得找中山大学的同学给你搞

Q8:请教大家:在做GO富集分析的气泡图,用好几个数据集尝试,都只是显示BP和MF,没有CC,请问哪里出问题了?谢谢

来源2022-生信入门年度交流

CC没有富集到通路或阈值调大试试;

Q9:从一堆差异基因中想做个转录因子调控的网络分析,该如何做?

来源2022-生信入门年度交流

很多网页工具如LISA http://lisa.cistrome.org/

这个网页工具也可以,https://regnetworkweb.org/search.jsp

Q10:我是用Rstudio画图,zoom方法后无论怎么调整大小,只有中间的图在缩放,但靠边上的文字都不能自动缩放。导出来的图也是一样,之前没遇到过,请教一下大家是不是我哪里设置错了不知道,谢谢!

来源2022-生信入门年度交流

页边距没有设置好,使用par(mar = )这个参数来设置

Q11:请问一些这个数据两个注释文件是什么意思

来源2022-生信入门年度交流

这是两款不一样的芯片,或者是iPhone14和iPhone14Pro

Q12:这个聚类热图,怎么都聚不到一起,怎么才能使热图以箭头所指方向聚类

来源2022-生信入门年度交流

ord=order(phe$icluster)
pheatmap(df[,ord])

Q13:请教一个WGCNA的问题。使用一步法构建了共表达矩阵net之后,net$colors已经被赋予了颜色,为什么还需要用 labels2colors(net$colors)来改变这个颜色?

我的理解是net$colors中的colors已经跟genes形成对应关系, 在上面的例子中,labels2colors 改变的也只是颜色,但模块的基因数量并没有改变。根据help文档描述,我理解是,没有赋予colors时可以使用 labels2colors 赋予,不知道有没有理解错了。

我查询了逐步分析法的代码,发现 labels2colors 用在dynamicColors的时候,目的应该就是赋予颜色。

来源2022-生信入门年度交流

代码遗留问题,你的理解是对的。

Q14:请问一下这种展示riskscore和把所有建模基因展示出来的有什么区别

来源2022-生信入门年度交流

pca的每个pc以及其代表性基因区别

Q15:为什么我有8个文件,fastqc的结果只有5个呢?

来源2022-生信入门年度交流

有一些 fastq 文件不完整,需要重新上传或者下载

Q16:请问这个为什么总是报错Directory nonexistent呀?

来源2022-生信入门年度交流

Project大小写没写对,大小写是敏感的

Q17:热图聚类参数已经调整为T,对照组中怎么会参差不齐地插入实验组的样本?

来源2022-生信入门年度交流

你要聚类,他就给你真实的情况,比如你想把一堆人分成穷人和有钱人,难道穷人和有钱人是泾渭分明的吗?有一些穷人会假装有钱人的

Q18:空转图片读不进去怎么处理

来源2022-生信入门年度交流

写错了文件夹名

Q19:我想合并TCGA-COAD和TCGA-READ的数据一起分析。用XENA分别下载后,卡在了合并数据框这里。数据框行列都不相等,我应该怎么合并

来源2022-生信入门年度交流

那你就先想办法把数据框行列搞一致哦

应该是先取列名取交集,然后把两个数据框的列名统一然后合并

Q20:能否分享一下类似于IMvogor210的知名免疫治疗数据库?

来源2022-生信入门年度交流

有更好的,没必要这个,去查看菜鸟团公众号介绍

Q21:我在练习GEO代码的时候拼图那一步报错了,在网上搜了一下,说是把右下角空白拉大即可,但是我尝试过了也不行。另外用export尝试不同格式调整长度宽度保存可是没有办法得到平涂的PDF结果,请问这个怎末解决呢?

来源2022-08(生信入门,暑期,收官)

如果还不行,就pdf 3段式保存后再查看吧

Q22:请问这种情况还可以有别的渠道下载到这个数据吗?

来源2022-08(生信入门,暑期,收官)

没有

Q23:我想问一下如果我直接wc,跟上面有啥不一样么

来源2022-08(生信入门,暑期,收官)

基本一致 除了直接wc会带上文件名,用cat和管道符不带文件名之外

Q24:为什么我的jobs只有这点呢?

来源2022-08(生信入门,暑期,收官)

Jobs只能看你当前这个窗口的后台运行的命令,如果你想看所有在运行的命令 可以用htop

Q25:这里sed可以直接打开文件,为啥还要用cat传递?

来源2022-08(生信入门,暑期,收官)

只是为了连带操作,我们要对文件进行处理,先简单 cat 一下了解一下这个文件内容

Q26:transcriptional signature与gene signature有什么不同呢?

来源2022-08(生信入门,暑期,收官)

gene和转录本的区别,一个基因可以有多个转录本

Q27:总是提示if前后有语法错误,具体错在哪里呢?我对照视频找了很久无果

来源2022-08(生信入门,暑期,收官)

if后面的条件判断用小括号

Q28:我拿到的transcriptome的file是log2TN 有正有负 我在做DEG分析时error 想请问已经是FC的情况 接下来应该怎么做…..

来源2022-08(生信入门,暑期,收官)

file是log2TN 有正有负 ,这样就不行,建议重新定量,需要整数count

Q29:用trim_galore进行数据过滤 总是报错 这是什么原因呢 路径我看设置的跟老师一样的 小环境也激活了 --help也有结果

来源2022-08(生信入门,暑期,收官)

安装trim的时候依赖程序cutadapt没有安装成功,需要卸载trim-galore重新安装

Q30:家人们 求问cg = names(tail(sort(apply(exp1,2,sd)),1000)) 这里突然不知道为什么要选方差最大的1000个 是因为可以表示gene在sample之间差异很大的意思吗?

来源2022-08(生信入门,暑期,收官)

是的,有差异,热图看得清楚

Q31:助教老师你好!还是上面这个问题,这次我没有写脚本,在rawdata下面新建了mkdir -p cleandata/trim/,然后尝试运行了两个样本:trim_galore -j 36 -q 20 --length 20 --max_n 3 --phred33 --stringency 3 --fastqc --paired hypoxia24_1_1.fq.gz hypoxia24_1_2.fq.gz -o ./cleandata/trim/,这次运行成功了,因此我觉得不是数据/样本的事情,可能还是我的这个脚本的问题,请能帮忙分析一下吗?

来源2022-08(生信入门,暑期,收官)

你前面的报错,就是文件不存在,路径给错了

Q32:为什么index这里的/home/不是$HOME/?

来源2022-08(生信入门,暑期,收官)

/home 是服务器上的一个文件夹,一般保存用户的主目录,比如一个讲师的用户名是 t_rna 那么期主目录就是 /home/t_rna 。不过学员的主目录不在 /home 而在 /trainee ,这是我们处于方便管理才这样操作的。

HOME 是一个变量,记录用户的主目录,即上面 t_rna 用户的的 HOME 就是 /home/t_rna

主目录和家目录一般不做区分,这两者是同个意思

Q33:请问一下这个脚本运行的时候线程数是多少?是8个线程还是先五个线程再三个线程,五个线程三个线程,五个线程三个线程......以此循环直到运行完?我怕超了那个48线程的规定

来源2022-08(生信入门,暑期,收官)

你的代码是一步一步运行,不需要叠加

Q34:我想买本R数据科学,麻烦老师们推荐一下是中文版还是英文版比较好呢?

来源2022-08(生信入门,暑期,收官)

如果不介意看英文的话 英文版更佳 而且不需要买 在线就有,喜欢看纸质书的话可以入一本纸质的

Q35:which cd 不能成功?

来源2022-08(生信入门,暑期,收官)

https://unix.stackexchange.com/questions/116955/where-is-cd-located

Q36:各位老师,转录组的下游我做到这一步了,但是我的是非模式生物(猪),请问这一步该怎么办

来源2022-08(生信入门,暑期,收官)

对于非模式物种,没有已知的就只能自己构建了

Q37:从画板处手动导出,热图形态正常,用pdf()三段式保存,热图就变形了

来源2022-08(生信入门,暑期,收官)

PDF保存设置长宽

Q38:请教各位老师,我在用ggplot画柱状图的时候,如果想要把id倾斜45度显示会出现两边的id显示不全的情况,这种情况可以怎么处理呢?(虽然直接90度也不影响表达,就好奇折腾看看)

来源2022-08(生信入门,暑期,收官)

把id倾斜45度显示会出现两边的id显示不全的情况,修改一个参数可以,但是参数太多了,你系统性学习ggplot可以解决

Q39:老师们,这个问题是不是可以忽略,我必应了很久,说没有也是正确的结果,说明基因集太小,这个代码应该如何修改呢?这个结果与P值和Q值取值大小没有关系

来源2022-08(生信入门,暑期,收官)

如果是小鼠的话 你的orgdb是不是用错了

Q40:请问这两个包可以安装成功但加载失败是什么问题呀

来源2022-08(生信入门,暑期,收官)

前面一个,你把缺了的那个包安装一下就可以了,后面这个没有报错哦

Q41:老师好,我在复现小洁老师课上给的子宫内膜异位症的那篇文章数据集为GSE6364时,做出来的上调的差异基因只有71个,而原文中的却有2419个,我又把logFC_t由1改为0.585后运行得到的上调的差异基因数量是365,当然原文是用的ReadAffy和rma读取和标准化,我用的是上课的标准流程中getGEO和normalizeBetweenArrays读取和标准化的,原文中没有找到logFC的阈值,只有p值阈值是0.05,这种上调的差异基因差别这么大是正常现象吗?

来源2022-08(生信入门,暑期,收官)

正常,除非你矩阵两次log了

Q42:我下载了TCGA的count数据vst标准化后进行相关性分析,发现和GEPIA网站上的结果不同,有些基因出入比较大,它用的是TPM数据,这是正常的吗

来源2022-08(生信入门,暑期,收官)

有可能,基因表达量并不是 公理,定理,主要是看排序,看表达量高低,是一个线索,并不是金标准

Q43:如果想用geo数据按照某个特定基因突变分组,应该去哪里找分组信息呢?我在geo数据里面没有找到像TCGA的Hugo_symbol那样专门的存放突变数据的地方,还是在表达矩阵里面提取呢

来源2022-08(生信入门,暑期,收官)

文章里面没有,那就是没有

Q44:小伙伴们求助,刚换新电脑安装,其他的像limma包都能装上,这个就是搞不定,换了方法安装也没有

来源2022-08(生信入门,暑期,收官)

你工作路径下有中文特殊字符

Q45:我在使用ifelse生成新的数据列时报错,代码如下

bmi1 <- ifelse(dat0$bmi<18.5,"1",                            
             ifelse(18.5<=dat0$bmi<24,"2",                                   
                    ifelse(dat0$bmi>=24,"3",NA)))

来源2022-07(生信入门马拉松授课)

8.5<=dat0$bmi<24,就错在这里,不支持这种写法

Q46:无生物学重复的数据能用小洁老师给的edgeR相关代码吗?

来源2022-07(生信入门马拉松授课)

理论上可以的,公共号里也分享过很多次。但是不推荐做无重复差异分析,转录组很便宜,做重复好一点。

Q47:我运行hisat2比对的时候,好几次提示。应该就指的是红框中的-符号,当时新叶老师讲的时候说这个符号表示上步运行生成的数据,我运行的时候有时报错有时不报错,麻烦老师帮看看是什么原因

来源2022-07(生信入门马拉松授课)

这个符号不是报错,主要是管道符前面就报错了。检查一下前面命令、输入文件路径等

Q48:质控的时候每个细胞的count数这张图做出来是这样的是不是不太对

来源2022-07(生信入门马拉松授课)

这个挺好的

Q49:想请教一下老师我这两个包装上了吗?

来源2022-07(生信入门马拉松授课)

没有error 即可

Q50:我在下载xena里面的数据,用到课上的这个代码,只需要把proj后面的改成我自己要下载的癌症名称就可以实现数据下载吗?

来源2022-07(生信入门马拉松授课)

小洁老师已经贴心的把一切整理好了,改成BRCA就可以直接下载乳腺癌的数据

Q51:如果从GEO数据库里下载高通量测序数据,是直接下载TXT文件,在R中用read.table打开吗?

来源2022-07(生信入门马拉松授课)

是的,准确来说不叫打开,叫读取

Q52:这个是不是表示没有富集到下调基因,所以source("kegg_plot_function.R")这步就会报错,后面的富集步骤同样无法进行?

来源2022-07(生信入门马拉松授课)

那是两个报错,两个原因。第一个报错因为确实没富集到,source 是第二个报错,找不到对象/文件,你应该把对应的文件放到你的工作目录下,用 Rproj 管理工作目录。

Q53:打开课上R的代码,今天发现中文乱码,之前打开没问题,请问遇到这种情况怎么解决?

来源2022-07(生信入门马拉松授课)

file--reopen with encoding -- utf-8

Q54:GEO数据库里面不同研究类型的芯片数据都可以用我们课上的芯片流程代码跑吗?不同类型的芯片系列可以联合分析吗?

来源2022-07(生信入门马拉松授课)

不建议联合。

Q55:怎样把一个非conda安装的软件安装到conda创建的特定环境中,比如说运行echo 'export PATH="/trainee2/vip28/biosoft/hisat2-2.2.1/:$PATH" ' >> ~/.bashrc,发现是添加到base 环境中了

来源2022-07(生信入门马拉松授课)

软件与环境的关系,在讲 $PATH的时候有讲到,理解 PATH,就理解软件与环境的关系。

一般而言手动安装的软件加入到我们在家目录里设置的bin里之后在任何的conda的环境里都是能调用的,手动安装然后加入~/bin和conda是互不干扰的两种方法。当然,如果你非要把软件安装到conda的某个环境中的话,你可以先找到那个环境(比如rna环境)的bin文件夹,然后把你手动安装的软件软连接到那个文件夹里去。

Q56:请问GEO PPT里的PPI网络,这个页面从哪里打开呢?在string网站上没有找到?

来源2022-07(生信入门马拉松授课)

cytoacape

Q57:conda小环境设置,这里的-y参数是什么功能?

来源2022-07(生信入门马拉松授课)

-y 就是抢答yes

Q58:我安装DESeq2这个包一直安装不上,都是同样的报错,有解决办法吗

来源2022-07(生信入门马拉松授课)

依赖包的问题,都安装更新一下即可。

Q59:cibersort能用fpkm数据吗?还是需要转换成tpm呢?

来源2022-07(生信入门马拉松授课)

看官方文档推荐什么

Q60:请问安装caret报错是什么原因呢?

来源2022-07(生信入门马拉松授课)

更新 rlang 包,先卸载 rlang。

Q61:老师请问一下如何实现把所有的坐标都去掉啊?我这个代码运行后之去掉一个

FeaturePlot(sce, features = c("TMSB4X", "COL3A1", "COL1A2", "TMSB10", "COX6A2", "TCAP", "MYOZ1",
                              "CKM","COX8H"),
                              reduction = "umap", pt.size = 1,cols = c("green", "red"))+theme(
                                axis.line = element_blank(),
                                axis.ticks = element_blank(),axis.text = element_blank()
                              )

来源2022-07(生信入门马拉松授课)

genes_to_check=genes_to_check[genes_to_check %in% rownames(sce)]
library(Seurat)
library(ggplot2) 
pl = lapply(genes_to_check, function(cg){  FeaturePlot(sce, cg,) + NoLegend() + NoAxes() })
ps <- cowplot::plot_grid(plotlist = pl)
ps  
ggsave("FeaturePlot_umap.pdf",width = 16,height = 15)

Q62:芯片数据进行lasso回归需要像TCGA数据一样转换成logCPM或logTPM数据吗?

来源2022-07(生信入门马拉松授课)

不可以,芯片没有M这个概念。