*嗨,伙计们,我是BeautifulSoup新手,我不太懂如何提取数据。我想提取亚马逊畅销书列表的前十个标题,并将其存储到一个数组中。
我的目标是创建一个亚马逊的前10名列表,并为不同的类别一遍又一遍地复制这个过程。我只想提取产品的“标题”。
这是我的代码:*
from bs4 import BeautifulSoup
import requests
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/601.3.9 (KHTML, like Geck
总的来说,我对编码非常陌生,感谢社区的任何支持!
我想做什么:,我有一个csv文件,链接到各种产品,我想要获得产品的标题,并将它写回相同或另一个csv文件(并不重要)。为此,我尝试导入csv文件(它工作得很好),将每一行写入一个列表(这同样有效),然后选择列表中的每个值来提取产品标题。
我的问题是:--单个链接的抓取工作--所以问题就在列表、循环、请求组合中,我想。如果运行以下代码,就会得到错误requests.exceptions.InvalidSchema。
from bs4 import BeautifulSoup
import requests
import csv
f = open
我试图从网页中获取产品标题和价格,但每次运行脚本时,我都会得到错误的,而不是内容。我查看了我在脚本中使用过的选择器所在的页面源代码。
我试过:
import requests
from bs4 import BeautifulSoup
link = 'https://www.amazon.com/dp/B01DOLQ0BY'
res = requests.get(link,headers={"User-Agent":"Mozilla/5.0"})
soup = BeautifulSoup(res.text,"lxml")
p
我想从《纽约时报》网站上获得一些头条。我有两个问题,问题1:这是我的代码,但我没有给我任何输出,有人知道我必须修改什么吗? import requests
from bs4 import BeautifulSoup
url = 'https://www.nytimes.com'
r = requests.get(url)
soup = BeautifulSoup(r.text, "html.parser")
a = soup.find_all(class_="balancedHeadline")
for story_heading in a:
这是我的完整密码。我想要得到输出数据的csv,如标题,价格一切将分隔列在csv或excel电子表格。我的代码将详细介绍每个产品的页面,并收集我所需的信息,如产品标题、价格等。
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.sup
我正试图在一个特定的月份获得所有链接、标题和日期,比如3月在网站上,我正在使用BeautifulSoup这样做:
from bs4 import BeautifulSoup
import requests
html_link='https://www.pds.com.ph/index.html%3Fpage_id=3261.html'
html = requests.get(html_link).text
soup = BeautifulSoup(html, 'html.parser')
for link in soup.find_all('td
我试着用漂亮的汤来跟踪产品的价格,但是每当我尝试运行这个代码时,我就会得到一个6位数的代码,我认为这与recaptcha有关。我试了很多次,检查了标题、url和标签,但是似乎没有什么效果。
from bs4 import BeautifulSoup
import requests
from os import environ
import lxml
headers = {
"User-Agent": environ.get("User-Agent"),
"Accept-Language": environ.get("A
我正在尝试解析一个购物网站的视频游戏标题列表。但是,由于项目列表都存储在一个标记中。
文档的部分应该解释了如何只解析文档的一部分,但我无法解决这个问题。我的代码:
from BeautifulSoup import BeautifulSoup
import urllib
import re
url = "Some Shopping Site"
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
for a in soup.findAll('a',{'title':re.com