我试图在R.中使用CDC的BRFSS数据,特别是,我试图将2014-2018年的数据读入不同的数据(步骤1完成),在数据中添加列标题(我正在做的),并将所有年份合并成一个数据格式。
列标题不在ASC数据文件中,但它们位于此网站的HTML表中:https://www.cdc.gov/brfss/annual_data/2017/llcp_varlayout_17_onecolumn.html中。
我怎样才能从这个网站把表格下载成CSV文件呢?
附注:这是我试图复制的代码,以便使用数据(如果有人使用BRFSS数据并且有更好的方法,请告诉我)。他已经创建了一个CSV的专栏标题数据,他正在使用,但这是一个不同的一年,所以我不能使用它,他没有给出说明。https://michaelminn.net/tutorials/r-brfss/
发布于 2022-10-26 16:29:10
您可以使用rvest
library(rvest)
url <- "https://www.cdc.gov/brfss/annual_data/2017/llcp_varlayout_17_onecolumn.html"
data <- read_html(url) %>%
html_element(xpath="//main//table") %>%
html_table()
data
#> # A tibble: 358 × 3
#> `Starting Column` `Variable Name` `Field Length`
#> <int> <chr> <int>
#> 1 1 _STATE 2
#> 2 17 FMONTH 2
#> 3 19 IDATE 8
#> 4 19 IMONTH 2
#> 5 21 IDAY 2
#> 6 23 IYEAR 4
#> 7 32 DISPCODE 4
#> 8 36 SEQNO 10
#> 9 36 _PSU 10
#> 10 63 CTELENM1 1
#> # … with 348 more rows
https://stackoverflow.com/questions/74210987
复制相似问题