zl程序教程

GEO数据挖掘

  • 凭什么说TCGA和GEO数据挖掘的结论不可靠呢

    凭什么说TCGA和GEO数据挖掘的结论不可靠呢

    前些天在《生信技能树》公众号提到了一个开放式讨论:富集分析排名第一的通路就是目标吗,我自己也给出来了一个证据链加强的措施,就是干湿结合:转录组差异分析不足以说明你的目标基因调控某个通路 ,然后蛮多小伙伴看完了之后表示对数据挖掘的结论持保留态度。孙中山先生曾经说过:“天下大势,浩浩汤汤,顺之者昌,逆之者亡。” 生命科学领域的研究,一切终将数字化,意味着生物信息学是主旋律,无论您信或者不信,一味地抵抗

    日期 2023-06-12 10:48:40     
  • 从零开始的异世界生信学习 GEO数据库数据挖掘--GEO背景知识简介

    从零开始的异世界生信学习 GEO数据库数据挖掘--GEO背景知识简介

    生信技能树科研图表介绍1.热图热图输入的数据是数值型矩阵/数据框颜色变化表示数值的大小一般冷色调表示小的数字,暖色调表示大的数字热图中包括聚类树,因此热图中的行列顺序与原数据不同,但是行和列内的数据无变化相关性热图用来显示哪些样本相似性高每个色块表示两个样本的相关性,图片为关于对角线对称的差异基因热图2.散点图和箱线图散点图和箱线图箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作

    日期 2023-06-12 10:48:40     
  • 从零开始的异世界生信学习 GEO数据库数据挖掘--GEO代码-芯片数据分析-1

    从零开始的异世界生信学习 GEO数据库数据挖掘--GEO代码-芯片数据分析-1

    生信技能树1.代码相关R包的加载options("repos"="https://mirrors.ustc.edu.cn/CRAN/") if(!require("BiocManager")) install.packages("BiocManager",update = F,ask = F) options(BioC

    日期 2023-06-12 10:48:40     
  • GEO数据挖掘——快速将探针ID转化为Gene Symol

    GEO数据挖掘——快速将探针ID转化为Gene Symol

    hello,hello!各位小伙伴们大家好,我是大家的小编豆豆,最近因为南京疫情,导致很多学校被封了,很多实验样品进不来,所以很多做实验的同学开始学生信。前两天,我妹妹在做GEO数据分析时遇到一点问题,就是将芯片数据的探针ID转化为Gene ID。小编以前也是学数据挖掘出身,知道这个是小伙伴们做GEO数据挖掘的第一道坎,今天小编就来写一个函数帮助小伙伴们快速的解决这个问题。1.从G

    日期 2023-06-12 10:48:40     
  • GEO数据挖掘代码1(从geo下载数据)

    GEO数据挖掘代码1(从geo下载数据)

    在GEO上搜索数据,下载其表达矩阵(如果以M为单位,说明文件可用;如果大小只有K,说明文件不可用)是一种储存高通量芯片表达矩阵的数据类型, exprs()函数可以将其切换为矩阵。image.png判断表达矩阵是否正常?boxplot() 箱线图中较为平齐,没有大的波动如果某一样本基因比别的样本小or大,则说明有问题image.png解决方法:1.删掉异常样本2.limma::normalizeB

    日期 2023-06-12 10:48:40     
  • GEO数据挖掘 富集分析

    GEO数据挖掘 富集分析

    以下是富集分析需要用到的R包rm(list = ls()) load(file = 'step4output.Rdata') library(clusterProfiler) library(ggthemes) library(org.Hs.eg.db) library(dplyr) library(ggplot2) library(stringr) library(enr

    日期 2023-06-12 10:48:40     
  • GEO数据挖掘—1

    GEO数据挖掘—1

    GEO数据挖掘—1一、图表介绍(一)热图输入数据是数值型矩阵/数据框,颜色的变化表示数值的大小(二)散点图 箱线图(单个基因在两组之间的表达量差异)单个基因的组间比较用箱线图,多个基因用差异分析。(三)火山图火山图的解读logFC是火山图的横坐标,范围基本是个位数的变化。2的几次方。纵坐标是基因的-log10(pvalue)Foldchange(FC):处理组平均值/对照组平均值

    日期 2023-06-12 10:48:40     
  • GEO数据挖掘-2

    GEO数据挖掘-2

    GEO数据挖掘—2四、代码分析流程1. 下载数据并从中提取有用信息gse_number = "GSE56649" eSet <- getGEO(gse_number, destdir = '.', getGPL = F)复制#(1)提取表达矩阵exp exp <- exprs(eSet) dim(exp) exp[1:4,1:4]复制关于表达矩阵

    日期 2023-06-12 10:48:40     
  • GEO数据挖掘—3

    GEO数据挖掘—3

    GEO数据挖掘—3富集分析(一)GO富集分析(用差异基因做富集)输入数据#(1)输入数据 gene_up = deg$ENTREZID[deg$change == 'up'] gene_down = deg$ENTREZID[deg$change == 'down'] gene_diff = c(gene_up,gene_down) #得到了差异基因

    日期 2023-06-12 10:48:40     
  • GEO数据挖掘

    GEO数据挖掘

    图标介绍GEO有火山图、箱线图、热图、PCA、散点图热图输入数据是数值型矩阵/数据框颜色的变化代表数值的大小散点图和箱线图输入数据是一个连续型向量和一个有重复值的离散型向量箱线图的上下5条线代表散点图的分布。箱线图:单个基因在组之间的表达量差异,必须知道每个组是对照组还是实验组。R语言中同一个分组对应一个关键词,比如对照组不能写成对照1,对照2,这样就不能把对照归为一类。对于有差别的基因用logF

    日期 2023-06-12 10:48:40     
  • GEO数据挖掘2(分组+探针注释的获取)

    GEO数据挖掘2(分组+探针注释的获取)

    分组:看pd数据的表格 查看哪里可以看到分组依据某一列包含了单独分组信息,(一般只包含1~2个单词),直接提取image.pngGroup = pd$`disease state:ch1` 复制在网页上or自己数有几个分组,每个分组对应几个样本Group = c(rep("RA",times=13), rep("control",ti

    日期 2023-06-12 10:48:40