我现在是一个学生,我现在学习的是美丽的汤,所以我的讲师就像我一样从商店里收集数据,但是我不能擦拭产品的细节。目前,我正在尝试从中抓取数据。我只想弄清楚产品的名称和价格。有人能告诉我为什么我不能用漂亮汤刮数据吗?
这是我的代码:
from requests import get
from bs4 import BeautifulSoup
url = "https://shopee.com.my/shop/13377506/search?page=0&sortBy=sales"
response= get (url)
soup=BeautifulSoup(response
我正在尝试将网页抓取的结果写入html文件。我正在使用美丽汤从网页上刮去链接和文本。然后,当我创建文件并将其写入时,我会得到以下错误:
UnicodeEncodeError: 'ascii' codec can't encode characters in position 939-940: ordinal not in range(128)
写入文件的行如下所示:
file_object.write(file_content)
当我这样做的时候:
file_object.write(file_content.encode('utf-8'))
我没有发现
我在抓取网页时遇到了问题。我正在努力学习如何做到这一点,但我似乎不能通过一些基础知识。我得到一个错误,"TypeError:'ResultSet‘object is not callable“是我得到的错误。
我尝试过很多不同的方法。我最初试图使用"find“而不是"find_all”函数,但我遇到了一个问题,美丽的汤拉入一个非issue。我无法创建一个可以克服该异常的if循环,所以我尝试使用"find_all“。
page = requests.get('https://topworkplaces.com/publication/ocregis
我想从不同的网页上抓取一个由Selenium打开的网页。 我在一个使用Selenium的网站上输入了一个搜索词,这让我进入了一个新的页面。我的目标是在这个新页面上创建一道汤。但是,汤是从我输入搜索词的前一页创建的。请帮帮我! from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
driver = webdriver.Firefox()
driver.get('http://www.ratestar.in/')
i
我是一个Python3的初学者,我正在为一个网站做硒项目
我想要的文本位于路径("//div[@class='classname']//span[@class='classname2']).text下
但是没有美汤我就不能提炼出来
for i in postsContainer.extract():
soup = bs(i)
people.append([soup.find("div",{"class":"classname"}).text])
但是如果没有//span部分,它就不能工作。我
我正试着用漂亮的汤从网页上抓取一些数据。
当我试图将HTML文档转换为一个漂亮的汤对象时,我遇到了一些问题。
当我运行代码时
soup = BeautifulSoup(html_doc)
我得到的错误消息是:
SyntaxError: Non-ASCII character '\xa9' in file C:/Users/mlee/PycharmProjects/BsTest/htmlparse.py on line 683, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for
我是python的新手。我想在eclipse中运行python脚本,因为我对此有点适应。我正在尝试导入和运行美丽汤在eclipse oxygen.Import是成功的,但我得到一个错误(未解决的导入汤)与以下code.However美丽汤是工作良好与anaconda.enter图像描述在这里
从bs4导入BeautifulSoup as soup
我有一些代码,使用机械化和美丽汤的网页抓取一些数据。代码在测试机器上运行良好,但生产机器阻塞了连接。我得到的错误是:
urlopen error [Errno 10053] An established connection was aborted by the software in your host machine
我已经读过类似的帖子,但我找不到这个确切的错误。我试图抓取的网站是HTTPS,但我也有同样的错误发生在HTTP网站上。我使用的是python 2.6和mechanize 0.2.4。
这是由于代理,还是如错误所说,是由于我的本地计算机上的某些原因?我已经为mechanize编
我正在使用,request,和美丽汤相结合的方式,在python中开发一个网络抓取程序。不幸的是,我遇到了403个问题(甚至使用头)。这里我的代码:
from bs4 import BeautifulSoup
from requests import get
headers_m = ({'User-Agent':
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36'})
sapo_m =
我使用的是web.pattern库,我希望从具有特定类名的网页中提取这些表。下面的代码给了我一个KeyError:'class‘
def get_tables_by_Class(html):
dom = web.Element(html)
for t in dom.by_tag('table'):
if t.attrs['class'] == 'class Name' :
tbls = t
return tbls
我不知道我在这里做错了什么,我想知道是否有其他方法