无论如何,我正在尝试为我正在开发的机器人爬行一个网站;我对xpath不太熟悉,现在我可以获得一些信息,但是从我正在爬行的网站上可以得到一些指南(比如游戏指南)(这是一个游戏),我想获得指南的标题,但它没有输出任何内容;我将解释我的代码:
name = input("> ")
page = requests.get("http://www.mobafire.com/league-of-legends/champions")
tree = html.fromstring(page.content)
for index, champ in enumerate
试图从列表中抓取数据,但出于某种原因,它返回为空。类似的代码已经在其他网站工作,我很困惑为什么它不会在这个网站上。请帮帮我!
import requests
from lxml import html
start_url ="https://www.anybusiness.com.au/search?page=1&sort=date-new-old"
res = requests.get(start_url)
tree = html.fromstring(res.content)
# Retrieve listing title
title_xpath =
import requests
from lxml import html
page = requests.get('http://www.cnn.com')
html_content = html.fromstring(page.content)
for i in html_content.iterchildren():
print i
news_stories = html_content.xpath('//h2[@data-analytics]/a/span/text()')
news_links = html_content.xpath(&
嘿,伙计们,我试着把数据写入csv文件/ excel。
问题是Excel文件我不能让它工作,而csv只显示“元素div at xx.xxx.xx”等等。我不想一行行地把产品和价格填写到正确的匹配位置。擅长者优先。大约1000种产品将被报废。
标准代码测试代码是否有效:
from lxml import html
import requests
urls = ['http://whiskey.de/shop/Aktuell/']
for url in urls:
for number in range(1, 15):
page_url = url +
我有下面的代码,它使用urlretrieve working来捕获图像。说得太对了。
def Opt3():
global conn
curs = conn.cursor()
results = curs.execute("SELECT stock_code FROM COMPANY")
for row in results:
#for image_name in list_of_image_names:
page = requests.get('url?prodid=' + row[0])
>>> from lxml import html
>>> html.tostring(html.fromstring('<div>1</div><div>2</div>'))
'<div><div>1</div><div>2</div></div>' # I dont want to outer <div>
>>> html.tostring(html.fromstring
对于如何从给定的xml页面中刮掉所有的链接(只包含字符串"mp3"),我感到困惑。以下代码只返回空括号:
# Import required modules
from lxml import html
import requests
# Request the page
page = requests.get('https://feeds.megaphone.fm/darknetdiaries')
# Parsing the page
# (We need to use page.content rather than
# page.
from lxml import html
import requests
url = 'https://www.data.gov/'
r = requests.get(url)
doc = html.fromstring(r.content)
link = doc.xpath('/html/body/header/div[4]/div/div/h4/label/small/a')
print(link)
这让我一直在想:
[Element a at 0x1c64c963f48]
响应,而不是我在页面中寻找的实际数字?知道为什么吗?
另外,为什么我不能获得一
我是Python新手,我试图理解为什么我会遇到以下错误:
Traceback (most recent call last):
File "WebScraper.py", line 10, in <module>
class Render(QWebPage):
NameError: name 'QWebPage' is not defined
以下是代码:
import sys
from PyQt5.QtGui import *
from PyQt5.QtCore import *
from PyQt5.QtWebEngine
这是我的代码:
from lxml import html
import requests
page = requests.get('https://en.wikipedia.org/wiki/Nabucco')
tree = html.fromstring(page.content)
title = tree.xpath('//*[@id="mw-content-text"]/table[1]/tbody/tr[1]/th/i')
print(title)
问题:打印(标题)打印"[]",空列表。我希望这个能印上“纳布科”。X
我有一个函数,当达到一个利率限制时,它会再次调用它自己。它最终应该成功并返回工作数据。它正常工作,然后按预期的速度限制工作,最后,当数据恢复正常时,我得到:
TypeError:“NoneType”对象不可订阅
def grabPks(pageNum):
# cloudflare blocks bots...use scraper library to get around this or build your own logic to store and use a manually generated cloudflare session cookie... I don
我用python编写了一些代码来解析网页中的标题和链接。最初,我试图从左边的栏中解析链接,然后通过跟踪每个链接从每个页面中抓取上述文档。我做得完美无缺。我试图将不同链接的文档保存在一个excel文件中不同的页面中。但是,它创建了几个“工作表”,从我的脚本中的标题变量中提取所需的部分作为工作表名。我面临的问题是-当数据被保存时,只有链接中的每个页面的最后记录保存在我的excel工作表中,而不是完整的记录中。下面是我尝试过的脚本:
import requests
from lxml import html
from pyexcel_ods3 import save_data
web_link =
# ./scrape.py
from lxml import html
import requests
url = "http://www.my-target-url.com"
page = requests.get(url)
# can I insert some js event codes to execute here?
tree = html.fromstring(page.content)
print tree.xpath("/html/to/target/data/text()")[0]
我这样做是为了抓取目标页面,它有几个按钮可以更改数据。我
我正试图从一个网站上抓取数据,以创建一个清单,列出最近的10个卷。我的代码:
from lxml import html
import requests
page = requests.get('http://www.csgodouble.com/')
tree = html.fromstring(page.content)
#List of past rolls
rolls = tree.xpath('//div[@class="past"]/text()')
print 'Rolls: ', rolls
为什么没有输出数
当我运行第一个脚本时,它会获取结果,但当我运行第二个脚本时,我将一无所获。在我的第二个脚本中,我没有发现任何丢失的东西来获得所需的结果。第一个脚本中使用的url与我在developer工具中找到的需求连接在一起。当我使用基url和参数时,为什么我的第二个脚本不能工作?
import requests
from lxml import html
response = requests.get("http://www.ebay.com/sch/i.html?_from=R40&_trksid=p2050601.m570.l1313.TR0.TRC0.H0.Xfunny+bear.T
我创建了一个刮板,它应该解析网页中的一些文档,并将其保存到一个excel文件中,创建两个工作表。但是,当我运行它时,我可以看到它只将最后一个链接的文档保存在一个单张中,而应该有两个带有来自两个链接的文档的工作表。我甚至打印了结果,看看背景中发生了什么,但我发现没有什么不对。我认为,第一页是覆盖的,第二页从未创建。如何绕过这个问题,以便将数据保存在excel文件中的两个工作表中。事先谢谢您来看一下。
这是我的代码:
import requests
from lxml import html
from pyexcel_ods3 import save_data
name_list = ['
用python编写一个脚本从表中获取数据,当我使用xpath时,我根据它的行格式和列格式获取数据。然而,当我使用css选择器时,我得到了一个错误'list‘对象没有属性'text’。如何绕过这一点?提前谢谢?
使用工作正常的xpath:
import requests
from lxml import html
url="https://fantasy.premierleague.com/player-list/"
response = requests.get(url).text
tree = html.fromstring(response)
for ti
我正在运行以下web刮刀代码:
25 # save source page and return xpath tree
26 def scrape_Page(url, path):
27 page = requests.get(url)
28 tree = html.fromstring(page.text)
29 # save html content
30 file_name = url.split('/')[-1] + ".html"
31 with open(os.path.join(path, fi