开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >用Xpath抓取python中的问题

问用Xpath抓取python中的问题
EN

Stack Overflow用户

提问于 2017-01-29 16:33:27

回答 1查看 182关注 0票数 1

我想把在这个网页上犯下的所有罪行都搜刮干净。我想刮的每一页都是"http://www.mylocalcrime.com/#“+邮政编码的格式。但是，无论是通过python还是在chrome上查看源代码，我都不会得到任何列出逮捕信息的数据。我得到了一个通用的网页，上面有每一种犯罪的图片和犯罪的标签。例如，消息来源会说(通过查看源代码可以看到这一点)：li，<...>Vandalism，/li>，但是破坏行为不是犯罪，它只是一个一般的故意破坏行为的象征，其内容是破坏行为。

我尝试过使用一个漂亮的汤，我的代码基本上是：

import csv
from bs4 import BeautifulSoup
from lxml import html
import requests

csvloc = '.../.../filelocation.csv'

ziplist = [1001]
listofcrimes = []

#with open(csvloc,'r') as csvfile:
#    ziplist = list(csv.reader(csvfile))

for each in ziplist:
    zipcode = str(each).zfill(5)
    page = requests.get('http://www.mylocalcrime.com/#'+zipcode)
    tree = html.fromstring(page.content)

此请求返回泛型页的html文件。必须有办法这样做，因为当我使用桌面刮刀时，它会擦拭结果并提供Xpath: //tr50/td ([]从0到50)。不太了解Xpath，但我所读的源文件中没有tr。我会感谢你的帮助。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-01-29 17:46:38

再次关闭浏览器和加载页面中的JavaScript --您将看到空页。

页面上的所有数据都由JavaScript和AJAX添加。

lxml和BS不执行JavaScript，所以找不到这些数据。

您可以使用Selenium (或类似的工具)来控制浏览器，浏览器将加载页面并运行JavaScript，然后您可以获得包含所有数据的HTML。

或者在Chrome/Firefox中使用DevTools查看JavaScript使用什么url读取这些数据，然后可以使用requests从这个url读取数据。JavaScript主要以JSON格式读取数据，这更容易搜索数据。

编辑：它使用API http://api.spotcrime.com获取数据。

它可能需要服务器http://spotcrime.com上的帐户和自己的private key来获取数据。

来自http://www.mylocalcrime.com的示例链接，它以JSON的形式提供数据：

http://api.spotcrime.com/crimes.json?lat=0&lon=0&radius=0.04&key=privatekeyforspotcrimepublicusers-commercialuse-877.410.1607

import requests

url = 'http://api.spotcrime.com/crimes.json?lat=0&lon=0&radius=0.04&key=privatekeyforspotcrimepublicusers-commercialuse-877.410.1607'

r = requests.get(url)

data = r.json()

crimes = data['crimes']

for x in crimes:
    print(x['type'], x['date'])

结果：

Arrest 01/26/17 03:38 PM
Arrest 01/21/17 09:30 PM
Arrest 01/20/17 05:09 PM
Other 01/16/17 07:50 PM
Arrest 01/16/17 11:14 AM
Assault 01/15/17 07:59 AM
Arrest 01/12/17 02:27 PM
Assault 01/09/17 10:45 PM
Theft 01/09/17 12:33 PM

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41927568

复制

相关文章

Python网络数据抓取实战——Xpath解析豆瓣书评

python xml 爬虫 https

前两篇我详细的讲解了CSS和XPath表达式在网页解析中的用法，但是都是以列举和解释为主，并没有用于解决实战问题，今天这一篇，我使用urllib+lxml工具组合，结合XPath表达式来做一个小案例。

数据小磨坊

2018/04/11

1.2K0

Python网络数据抓取实战——Xpath解析豆瓣书评

Python网络爬虫（四）- XPath1.XPath2.XPath在python中的应用

python 爬虫 scrapy

XPath 即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。它使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 XPath语法

Python攻城狮

2018/08/23

1.4K0

Python网络爬虫（四）- XPath1.XPath2.XPath在python中的应用

Amazon关键词抓取 python之lxml(xpath)

xslt & xpath 爬虫 python

亚马逊的网址构造很简单，几乎算是静态的网页，花费3小时完美收工，不要在意细节！在python3下利用xpath就可以完美解决 xpath的使用方法请见： python之lxml(xpath) 入口

机器学习和大数据挖掘

2019/07/02

1K0

Amazon关键词抓取
python之lxml(xpath)

用python抓取淘宝评论

来自：http://blog.csdn.net/winterto1990/article/details/47983253 在学习python的时候，一定会遇到网站内容是通过ajax动态请求、异步刷新生成的json数据的情况，并且通过python使用之前爬取静态网页内容的方式是不可以实现的，所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据。这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求

机器学习AI算法工程

2018/03/14

3.6K0

初学指南| 用Python进行网页抓取

编译|丁雪黄念程序注释|席雄芬校对|姚佳灵引言从网页中提取信息的需求日益剧增，其重要性也越来越明显。每隔几周，我自己就想要到网页上提取一些信息。比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引。我们不仅需要找出新的课程，还要抓取对课程的评论，对它们进行总结后建立一些衡量指标。这是一个问题或产品，其功效更多地取决于网页抓取和信息提取（数据集）的技术，而非以往我们使用的数据汇总技术。网页信息提取的方式从网页中提取信息有一些方法。使用API可能被认为是从网站提取信息的最佳方法。

大数据文摘

2018/05/21

3.3K0

初学指南| 用Python进行网页抓取

引言从网页中提取信息的需求日益剧增，其重要性也越来越明显。每隔几周，我自己就想要到网页上提取一些信息。比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引。我们不仅需要找出新的课程，还要抓取对课程的评论，对它们进行总结后建立一些衡量指标。这是一个问题或产品，其功效更多地取决于网页抓取和信息提取（数据集）的技术，而非以往我们使用的数据汇总技术。网页信息提取的方式从网页中提取信息有一些方法。使用API可能被认为是从网站提取信息的最佳方法。几乎所有的大型网站，像Twitter、Facebo

CDA数据分析师

2018/02/05

3.8K0

初学指南| 用Python进行网页抓取

/ 从根节点 // 从当前节点 . .. 父节点 @ 属性 bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。

用户5760343

2019/10/21

6160

用Python抓取某大V的公众号文章

我之前用Charles来抓取了得到App的音频资料抓取得到App音频数据，于是又收到有读者要我抓取公众号文章，于是就有了这一篇文章. 不知道爬谁的文章好，想了想找了比较接地气的公众号大V[匿名一下，省得被认为蹭流量]，于是在微信上征得他同意后，开始干活了！

龙哥

2018/10/22

2.4K0

用Python抓取某大V的公众号文章

用Python爬虫抓取免费代理IP

-- Illustrations by Ash Thorp & Maciej Kuciara --

Python中文社区

2018/07/27

3.3K0

用Python爬虫抓取免费代理IP

用Python抓取在Github上的组织名称

爬虫 github git 开源 html

我想在我的个人网站上展现我在Github上提交代码的组织名称，并且不用我手动更新提交记录的变化。Github提供了读取数据的API，但是，不能体现出我想一些开发组织提交的代码。这就是我之所以要爬取那些信息的原因。本文的代码仓库：https://github.com/DahlitzFlorian

老齐

2020/05/15

1.7K0

用Python抓取在Github上的组织名称

如何利用Xpath抓取京东网商品信息

python 正则表达式 html xml

前几天小编分别利用Python正则表达式和BeautifulSoup爬取了京东网商品信息，今天小编利用Xpath来为大家演示一下如何实现京东商品信息的精准匹配~~

Python进阶者

2018/08/03

7580

如何利用Xpath抓取京东网商品信息

Scrapy中Xpath的使用

html scrapy href xpath 对象

请注意，本文编写于 990 天前，最后修改于 990 天前，其中某些信息可能已经过时。

曼亚灿

2023/05/17

9330

Python爬虫——XPath

image png text title url

XPath 表达式描述 nodename 选取此节点的所有子节点 / 从根节点选取 //xxx 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置 . 选取当前节点 .. 选取当前节点的父节点 @xxx 选取属性内容 /text() 选取文本内容 starts-with(@属性名称，属性字符相同部分) 以相同字符开始演示使用HTML内容 html = ''' <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8">

羊羽shine

2019/05/28

6940

python xslt & xpath

XPath 在XML文件中查找信息的一套规则/语言，根据XML元素或者属性进行遍历 http://www.w3school.com.cn/xpath/index.aspXPath 开发工具开源的XPath表达式编辑工具: XMLQuire Chrome插件: XPath Helper Firefox插件: XPath Checker 选取节点 nodename: 选取此节点的所有子节点 /: 从根节点开始选取 /Student: 没有记过 /School: 选取School节点 //: 选

ruochen

2021/05/11

6740

python对xpath的支持

python xslt & xpath go

安装：下载对应python版本的软件包à解压àpython setup.py install

py3study

2020/01/06

1.1K0

用Python多线程抓取并验证代理

html http 网络安全爬虫 jquery

最后，为了提高效率，最好是使用多线程。（PS，有个地方要注意，urlopen这个函数，设定了一个全局对象opener，所以如果你使用了多个线程，每个线程使用一个代理，那么，不能使用urlopen这个函数，而应该使用opener.open)

艳艳代码杂货店

2021/11/01

4710

教你用Python抓取分析《向往的生活》弹幕

《向往的生活》是湖南卫视一档十分温馨的生活类真人秀综艺节目，目前第三季正在更新中，常驻嘉宾加入了张子枫，深受广大观众的喜欢。而该节目的豆瓣评分也达到了7.9。这档综艺以明星艺人到村寨里体验生活为主线，融入了美食，劳动，幽默的元素，让人边看边有身临其境的感觉，仿佛自身也真正进入了“向往的生活”。

查理不是猹

2021/12/25

5820

Python爬虫之Xpath学习问题解决用xpath方法爬取豆瓣图书top250分析总结

python 爬虫云数据库 SQL Server

问题解决这是我昨天发的简书python爬虫之豆瓣音乐top250大牛们解决了一大部分的问题 1 MySQL报错问题字段长度设置太小，说着也很奇怪，我用的vachar(20)都说小了，哎，后面建表干

罗罗攀

2018/07/03

7090

java https xml xslt & xpath 网络安全

　　绝对路径（absolute path）必须用”/”起首，后面紧跟根节点，比如/step/step/…

全栈程序员站长

2022/07/14

4650

点击加载更多

相似问题

用python抓取-xpath问题

118

用Python中的Xpath进行with抓取

12

用Selenium - XPath问题抓取亚马逊

11

用xpath提取Python顺序中的抓取

15

网络抓取- xPath问题

10

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例