前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[GBD数据库挖掘] 1.数据的下载与整合

[GBD数据库挖掘] 1.数据的下载与整合

作者头像
R语言数据分析指南
发布2022-09-23 14:16:47
1.5K0
发布2022-09-23 14:16:47
举报
文章被收录于专栏:R语言数据分析指南

「最近有观众老爷在做GBD数据库挖掘问小编一些数据处理的问题」,正好去年也写过相关的代码,既然观众老爷们有需求那么就写一些文档来介绍一下,「数据代码已经上传VIP群,请自行下载」

正文

「数据库主页(https://www.healthdata.org/)」

❝该数据库具体内容各位可以自行了解,下面让我们直接来到数据下载的页面进行数据下载,「近期可能由于改版缘故下载数据需要进行账号注册」,小编去年是不需要登录账号就能下载数据 ❞

数据下载

「https://vizhub.healthdata.org/gbd-results/」

数据选择

❝可以看到左侧有很多选项,一般小编做如下选择 「GBD Estimate (Cause of death or inijury)」 「Measure (Deaths,DALYs,Incidence)」 「Metric (Number,Percent,Rate)」 「Cause (这个选自己需要研究的)」 「Location (select all)」 「Age (select all)」 「Sex (select all)」 「year (select all)」

数据下载

❝执行完选择后点「Download」网站就会开始为我们准备数据,准备完成后克看到如下画面 ❞

批量下载数据

❝如果数据量较大,系统会自动帮我们切割成很多个文件,大概几十个之多;当然你也可以点击 「Download」 一个一个下载,如果要批量下载数据复制下载链接终端进行下载即可,由于这份数据只有两个所以为 {1..2}请不要执行这个输入你自己的网址即可

代码语言:javascript
复制
for i in {1..2}
do
    wget "https://dl.healthdata.org/gbd-api-2019-public/2e492f56c96451fce3d1ac_files/IHME-GBD_2019_DATA-8c0d0ff4-$i.zip"
done

批量解压缩

❝由于下载的都为压缩文件,如果数据量较大会有几十个之多;所以还是批量处理来的痛快 ❞

代码语言:javascript
复制
for z in *.zip; do unzip "$z"; done

批量合并数据

代码语言:javascript
复制
library(tidyverse)

list.files(path = "~/liver-cancer/data",
           pattern = "*.csv", full.names=TRUE) %>% 
  lapply(read_csv) %>% bind_rows() %>% write_csv(.,file="liver_cancer.csv",quote="none")

❝经过上面的步骤,我们就顺利的下载好了后续需要进行数据挖掘的文件,后面就是一系列的数据统计分析内容了,本节只是简单介绍一下数据下载仅此而已;喜欢的观众老爷欢迎分享转发

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 R语言数据分析指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 正文
  • 数据下载
  • 数据选择
  • 数据下载
  • 批量下载数据
  • 批量解压缩
  • 批量合并数据
相关产品与服务
访问管理
访问管理(Cloud Access Management,CAM)可以帮助您安全、便捷地管理对腾讯云服务和资源的访问。您可以使用CAM创建子用户、用户组和角色,并通过策略控制其访问范围。CAM支持用户和角色SSO能力,您可以根据具体管理场景针对性设置企业内用户和腾讯云的互通能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档