<noscript>
<h1><strong>Please enable JavaScript and refresh the page.</strong></h1>
</noscript>
所以为了正常获取数据可以使用selenium来获取页面源代码之后在使用以前的bs4来处理数据。
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from lxml import etree
chrome_options = Options() # 实例化Option对象
chrome_options.add_argument('--headless') # 把Chrome浏览器设置为静默模式
chrome_options.add_argument('--disable-gpu') # 禁止加载图片
driver = webdriver.Chrome(options = chrome_options) # 设置引擎为Chrome,在后台默默运行
def http_get(url):
driver.get(url)
return driver.page_source
此时就可以正常获取数据了。
json转csv工具参数说明:
(venv) (base) zhongming@ZhongMingdeMacBook-Pro get_district % python json2csv.py
****************************************************************************************************
国家统计局行政区划爬虫 Json转CSV
http://h4ck.org.cn
obaby@mars
Usage: json2csv -a -i <inputfile> -o <outputfile>
-a 转换当前目录下所有json文件
-i json文件
-o 转换后的csv文件
****************************************************************************************************
代码有bug ,-o参数无效,如果要使用-o参数,请自行修改代码。另外,如果转换出错,请删除报错的json文件,重新生成,多数是由于网络问题,导致json文件数据不完整导致的错误,重新爬取对应的省份即可。
csv文件结构预览:
项目开源代码地址: https://github.com/obaby/administrative-division-spider
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有