我正在使用Python3.4中的BeautifulSoup进行一些网络抓取。
现在,我在学习过程中遇到了一个问题:我试图从网页中获取一个表行,并且我使用find_all()来获取它们,但是在表中--有更多的表中有表行!如何在BeautifulSoup中只获得标签的顶级/一级通用或特定元素?
# Retrieves all the row ('tr') tags in table
my_table.find_all('tr')
顺便说一句,这个问题是这个问题的重复(只有在那里使用的编程语言是PHP):
我想做一些我不知道是不是很丑的事.
我试图做一些网络抓取,我假装概括了一个函数来提取正确的类。
守则是:
import requests, re
from bs4 import BeautifulSoup as bs
def has_label_key(tag):
print(tag)
return tag.has_attr("data-acc") and tag["data-acc"]=="WOTD"
s = requests.Session()
r = s.get("http://dle.rae.es/srv/
我想从亚马逊上收集一些书评。这是我到目前为止所知道的:
import requests
from bs4 import BeautifulSoup
def data(site):
url = site
r = requests.get(url)
soup = BeautifulSoup(r.text)
y = soup.find_all("div", style = "margin-left:0.5em;")
words = []
for item in y:
item = str(item.t
我正在尝试从Jeopardy网站收集数据。特别是,我想从这个site的数据表中收集美元金额 ? 在lxml中是这样显示的: ? 我可以使用以下代码行来完成此操作: scores = [int(score.text.replace('$','').replace(',','')) for score in soupEpisode.find('h3', string='Scores at the first commercial break (after clue 15)').find
我试图将球员的高级统计数据放到excel表格中,但它抓取的是第一个表格,而不是高级统计表格。 ValueError: Length of passed values is 23, index implies 21 如果我尝试使用id代替,我得到另一个关于tbody的错误。 另外,我得到了一个错误,关于 lname=name.split(" ")[1]
IndexError: list index out of range. 我认为这与列表中的“Nene”有关。有没有办法解决这个问题? import requests
from bs4 import BeautifulSoup
我正在处理这一守则:
from bs4 import BeautifulSoup
import glob
import os
import re
def trade_spider():
os.chdir(r"C:\Users\6930p\FLO'S DATEIEN\Master FAU\Sommersemester 2016\02_Masterarbeit\04_Testumgebung\01_Probedateien für Analyseaspekt\Independent Auditors Report")
for file in glob.gl
我试图执行以下python代码
import httplib2
from BeautifulSoup import BeautifulSoup, SoupStrainer
http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')
for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer('a')):
if link.has_attr('href'):
import requests
from bs4 import BeautifulSoup
urls = ['http://www.freejobalert.com/upsc-advt-no-18/33742/',
'http://www.freejobalert.com/upsc-recruitment/16960/#Engg-Services2019',
'http://www.freejobalert.com/ssc-recruitment/17522/#selection-posts']
for u i
我已经建立了一个机器人,它从HLTV获取火柴的信息。问题是,上午10点之前没有现场比赛。当我的机器人试图提取页面的链接时,它会产生错误。
我试图忽略它就像:
if links is None:
pass
返回我为:
'Nonetype' object has no attribute find_all('a')
我尝试了一下,除了尝试,但是当我使用try,除了它,它一次又一次地占用了所有的代码。我的意思是像循环一样思考。D这很烦人。有办法解决吗?
我的代码在这里,但是您不会接受这个错误,因为它通过了上午10 :D。
from bs4 import Bea
for i in soup.find("ul",attrs={"class":"clearfix"}):
for durum in i.find_all('li'):
print(durum) 我想用BeautifulSoup在ul中使用li,所以我写了这个命令,但是我得到了一个错误的'NavigableString' object has no attribute 'find_all'。 哪里出了问题?
我刚开始吃蟒蛇和漂亮汤,如果这是个愚蠢的问题,我很抱歉。我试图创建一个,它以输入国家的名字命名,并从下面的网站()中找到它的货币供应。每当我试图查找所有a标记时,它都会给出以下错误:
"AttributeError: ResultSet object has no attribute 'find_all'.
You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()? "
我正在使用BeautifulSoup抓取一个值,但是输出给了我两个值,因为它在页面上是两次,我如何选择其中之一?这是我的密码:
url = 'URL'
r = requests.get(url,headers=headers)
soup = BeautifulSoup(r.content, "html.parser")
data = soup.find_all("input", {'name': 'CsrfToken', 'type':'hidden'})
for data in
我正在尝试从几个URL抓取表数据。我正在寻找的表是特定的,当我在BeautifulSoup中使用.find_all时,我已经为它建立了索引。例如,当我在一个URL上执行脚本时,它工作得很好,并返回我正在查找的表。当我使用for循环从多个URL中抓取表并将它们附加到一个数据帧中时,问题就出现了。
new_table=pd.DataFrame(columns=range(0,10), index=[0])
k=0
for k in range(0, 11200):
response=requests.get(urls[k])
htmls=response.text
sou