zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

[GBD数据库挖掘] 1.数据的下载与整合

数据库下载数据 整合 挖掘
2023-06-13 09:11:02 时间

「最近有观众老爷在做GBD数据库挖掘问小编一些数据处理的问题」,正好去年也写过相关的代码,既然观众老爷们有需求那么就写一些文档来介绍一下,「数据代码已经上传VIP群,请自行下载」

正文

「数据库主页(https://www.healthdata.org/)」

❝该数据库具体内容各位可以自行了解,下面让我们直接来到数据下载的页面进行数据下载,「近期可能由于改版缘故下载数据需要进行账号注册」,小编去年是不需要登录账号就能下载数据 ❞

数据下载

「https://vizhub.healthdata.org/gbd-results/」

数据选择

❝可以看到左侧有很多选项,一般小编做如下选择 「GBD Estimate (Cause of death or inijury)」 「Measure (Deaths,DALYs,Incidence)」 「Metric (Number,Percent,Rate)」 「Cause (这个选自己需要研究的)」 「Location (select all)」 「Age (select all)」 「Sex (select all)」 「year (select all)」

数据下载

❝执行完选择后点「Download」网站就会开始为我们准备数据,准备完成后克看到如下画面 ❞

批量下载数据

❝如果数据量较大,系统会自动帮我们切割成很多个文件,大概几十个之多;当然你也可以点击 「Download」 一个一个下载,如果要批量下载数据复制下载链接终端进行下载即可,由于这份数据只有两个所以为 {1..2}请不要执行这个输入你自己的网址即可

for i in {1..2}
do
    wget "https://dl.healthdata.org/gbd-api-2019-public/2e492f56c96451fce3d1ac_files/IHME-GBD_2019_DATA-8c0d0ff4-$i.zip"
done

批量解压缩

❝由于下载的都为压缩文件,如果数据量较大会有几十个之多;所以还是批量处理来的痛快 ❞

for z in *.zip; do unzip "$z"; done

批量合并数据

library(tidyverse)

list.files(path = "~/liver-cancer/data",
           pattern = "*.csv", full.names=TRUE) %>% 
  lapply(read_csv) %>% bind_rows() %>% write_csv(.,file="liver_cancer.csv",quote="none")

❝经过上面的步骤,我们就顺利的下载好了后续需要进行数据挖掘的文件,后面就是一系列的数据统计分析内容了,本节只是简单介绍一下数据下载仅此而已;喜欢的观众老爷欢迎分享转发