前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >全国统计用区划代码和城乡划分代码 2022年数据[爬虫]【Json+CSV格式】

全国统计用区划代码和城乡划分代码 2022年数据[爬虫]【Json+CSV格式】

作者头像
obaby
发布于 2023-04-28 11:42:20
发布于 2023-04-28 11:42:20
96400
代码可运行
举报
文章被收录于专栏:obaby@marsobaby@mars
运行总次数:0
代码可运行
原始数据连接http://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2022/ 2021年的数据连接已经失效。整体页面变化不大,但是新的页面直接使用request拉数据获取的页面数据是错误的:
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<noscript>
<h1><strong>Please enable JavaScript and refresh the page.</strong></h1>
</noscript>

所以为了正常获取数据可以使用selenium来获取页面源代码之后在使用以前的bs4来处理数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from lxml import etree


chrome_options = Options() # 实例化Option对象
chrome_options.add_argument('--headless') # 把Chrome浏览器设置为静默模式
chrome_options.add_argument('--disable-gpu') # 禁止加载图片
driver = webdriver.Chrome(options = chrome_options) # 设置引擎为Chrome,在后台默默运行

def http_get(url):
    driver.get(url)
    return driver.page_source

此时就可以正常获取数据了。

json转csv工具参数说明:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
(venv) (base) zhongming@ZhongMingdeMacBook-Pro get_district % python json2csv.py   
****************************************************************************************************
国家统计局行政区划爬虫 Json转CSV
http://h4ck.org.cn
obaby@mars
Usage: json2csv -a -i <inputfile> -o <outputfile>
 -a 转换当前目录下所有json文件
 -i json文件
 -o 转换后的csv文件
****************************************************************************************************

代码有bug ,-o参数无效,如果要使用-o参数,请自行修改代码。另外,如果转换出错,请删除报错的json文件,重新生成,多数是由于网络问题,导致json文件数据不完整导致的错误,重新爬取对应的省份即可。

csv文件结构预览:

项目开源代码地址: https://github.com/obaby/administrative-division-spider


本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023年4月21日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
python爬虫之selenium记录
Chrome浏览器驱动下载地址:http://npm.taobao.org/mirrors/chromedriver/ 基础代码: browser = webdriver.Firefox() //选择浏览器 browser.find_element_by_id().send_keys() //寻找控件通过ID,且发送值selenium browser.find_element_by_id().click() //搜索的按钮的id 叫su ,且点击 browser.quit() //退出并关闭窗口的每一个相关
SingYi
2022/07/14
3270
Selenium最新版本不再支持PhantomJS
今天想对《自动读取单位某系统数据》一文中的项目做些优化,将Selenium+firefox改为无界面的PhantomJS,出现如下错误:
拓荒者
2019/03/15
1.9K0
selenium+python自动化100-linux搭建selenium环境
前言 selenium在windows机器上运行,每次会启动界面,运行很不稳定。于是想到用chrome来了的headless无界面模式,确实方便了不少。
上海-悠悠
2019/09/27
3.7K0
Python3 Selenium+Chr
以前抓取动态网页是用PhantomJS + Selenium + ChromeDriver,但是新版的Selenium不支持PhantomJS了,程序跑的时候总会跳出一些warnings.
py3study
2020/01/10
4860
Python 爬虫之Selenium终极绝招
这里简单解释一下什么是Selenium,它其实是一个网站前端压力测试框架,更通俗的说,它能直接操作浏览器,试想一下,网页是在浏览器里面加载的,如果我们能用代码操控浏览器,那我们想要爬取什么数据不能通过浏览器获取?无所不爬!
arcticfox
2019/06/26
1.3K0
Python 爬虫之Selenium终极绝招
Python浏览器爬虫
没有出现正确的结果,所以手动复制代码到chart.html文件中,稍后使用soup解析
esse LL
2025/03/08
1170
Python3爬虫模拟登录爬取百度图片
pycharm,python3.7,selenium库,request库,os文件库,re模块的正则表达式运用,自行下载chromedriver自测软件
HcodeBlogger
2020/07/14
6310
Selenium自动化防爬技巧:从入门到精通,保障爬虫稳定运行,通过多种方式和add_argument参数设置来达到破解防爬的目的
在Web自动化测试和爬虫开发中,Selenium作为一种强大的自动化工具,被广泛用于模拟用户行为、数据抓取等场景。然而,随着网站反爬虫技术的日益增强,直接使用Selenium很容易被目标网站识别并阻止。因此,掌握Selenium的防爬策略与参数设置变得尤为重要。本文将详细介绍几种常见的Selenium防爬方法,并列出关键的防爬参数,同时提供详细的代码案例。
小白的大数据之旅
2024/11/20
2790
Selenium自动化防爬技巧:从入门到精通,保障爬虫稳定运行,通过多种方式和add_argument参数设置来达到破解防爬的目的
GPT4仅用5秒钟就帮我生成了爬取百度图片的代码(附源码以及提示词)
最近通过GPT4-O生成了一个爬取百度图片的爬虫代码,让我比较惊喜地是GPT4-o生成的代码,复制下来之后直接可以成功运行。下面就给大家分享一下我这边使用的提示词,GPT4生成的代码以及最终代码运行的结果。
码农飞哥
2024/06/21
2041
GPT4仅用5秒钟就帮我生成了爬取百度图片的代码(附源码以及提示词)
Python爬虫教程:Selenium可视化爬虫的快速入门
网络爬虫作为获取数据的一种手段,其重要性日益凸显。Python语言以其简洁明了的语法和强大的库支持,成为编写爬虫的首选语言之一。Selenium是一个用于Web应用程序测试的工具,它能够模拟用户在浏览器中的操作,非常适合用来开发可视化爬虫。本文将带你快速入门Python Selenium可视化爬虫的开发。
小白学大数据
2024/10/17
3140
python正则循环提取、替换等操作
获取httpserver 资源,展示在邮件中 #!/bin/bash # coding=utf-8 """ 作者:gaojs 功能: 新增功能: schedule 是一个第三方轻量级的任务调度模块,可以按照秒,分,小时,日期或者自定义事件执行时间。 schedule 允许用户使用简单、人性化的语法以预定的时间间隔定期运行 Python 函数(或其它可调用函数) demo如下: schedule.
懿曲折扇情
2022/08/24
1.5K0
python正则循环提取、替换等操作
windows下实现黑客派自动签到
需要翻墙,地址为 http://chromedriver.chromium.org/downloads,找到符合自己浏览器版本的 chromedriver 驱动,下载解压后,将 chromedriver.exe 文件放到 Python 目录下的 Scripts 目录下。我已下载 75 版本
cuijianzhe
2022/06/14
6640
windows下实现黑客派自动签到
通用性基本爬虫问题的解决思路
对于爬虫和反爬一直是矛盾的存在的,今天就一个粉丝提出的爬虫问题梳理一下我对爬虫类问题的解决。
马拉松程序员
2022/04/26
1.2K0
通用性基本爬虫问题的解决思路
shell中调用python函数,发送邮件
一、shell中调用python函数1.邮件正文是框架自带的生成的报告 2.邮件附件是第三方类库生成的炫酷的报告看板 send_email.pyimport refrom email.mime.application import MIMEApplicationfrom email.mime.multipart import MIMEMultipartfrom smtplib import SMTP_SSLfrom email.header import Headerimport schedulefr
懿曲折扇情
2022/08/24
8540
shell中调用python函数,发送邮件
如何使用Python爬虫处理JavaScript动态加载的内容?
JavaScript已经成为构建动态网页内容的关键技术。这种动态性为用户带来了丰富的交互体验,但同时也给爬虫开发者带来了挑战。传统的基于静态内容的爬虫技术往往无法直接获取这些动态加载的数据。本文将探讨如何使用Python来处理JavaScript动态加载的内容,并提供详细的实现代码过程。
小白学大数据
2024/10/11
6760
Python爬虫教程:Selenium可视化爬虫的快速入门
Selenium最初是为自动化Web应用程序的测试而设计的。它支持多种编程语言,并能与主流的浏览器进行交互。使用Selenium,我们可以模拟用户在浏览器中的各种行为,如点击、滚动、输入等,这使得它成为开发可视化爬虫的理想选择。
小白学大数据
2024/10/18
2300
Selenium:Chrome、Edge、Firefox、Opera、Safari常用WebDriver下载安装[通俗易懂]
简介:Selenium中运行需要先配置WebDriver,各主流浏览器安装配置大同小异。
全栈程序员站长
2022/10/02
2.2K0
Selenium:Chrome、Edge、Firefox、Opera、Safari常用WebDriver下载安装[通俗易懂]
Python3多进程+协程异步爬取小说
之前写了一篇关于用多线程爬小说的博客,但是发现爬取16M的小说需要十几分钟,所以今天更新了一篇用多进程外加使用单线程异步的协程同样爬取之前用多线程爬取的同一篇小说,并进行两者效率的对比
HcodeBlogger
2020/07/14
9310
Python3多进程+协程异步爬取小说
火狐谷歌模拟一个虚拟界面
在Python中进行浏览器测试时,一般我们会选择selenium这样的库来简化我们工作量。而有些时候,为了对一些动态数据进行抓取,我们会选择
周小董
2019/03/25
9450
火狐谷歌模拟一个虚拟界面
Selenium与Web Scraping:自动化获取电影名称和评分的实战指南
在信息化高度发展的今天,获取数据的能力变得尤为重要。通过 Web Scraping,我们可以从动态网页中提取有价值的信息,例如在豆瓣电影中获取电影名称和评分。然而,随着网站反爬虫措施的不断增强,传统的抓取技术已不再奏效。Selenium 作为一个强大的网页自动化工具,可以模拟用户操作,帮助我们实现更复杂和更可靠的数据抓取。
jackcode
2024/08/19
1830
Selenium与Web Scraping:自动化获取电影名称和评分的实战指南
推荐阅读
相关推荐
python爬虫之selenium记录
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文