使用BeautifulSoup查找产品标题_使用带有特定标题的BeautifulSoup查找特定表_使用BeautifulSoup查找特定文本 - 腾讯云开发者社区

、、、、

我想从( h2 class=“>a href=”：)获取所有url。此代码：从bs4导入BeautifulSoup头={“用户-代理”：“BeautifulSoup/5.0(WindowsNT6.1；WOW64；rv:77.0) Gecko/20190101火狐/77.0“} Purl = '‘req =requests.get(紫，headers=header)汤= BeautifulSoup(req.content，'lxml') ProductUrl = [] #查找产品标题showName = soup.select('h2'，{

浏览 1提问于2021-12-05得票数 1

回答已采纳

2回答

如何使用find排除所有标题？

、、、

我有从我的网站上获取所有标题的功能，我不想从一些产品中获得标题，这是正确的方式吗？我不想要带有"OLP NL“或"Arcserve”或"LicSAPk“或"symantec”字样的产品的标题 def get_title ( u ): html = requests.get ( u ) bsObj = BeautifulSoup ( html.content, 'xml' ) title = str ( bsObj.title ).replace ( '<title>', '' ).replace (

浏览 22提问于2019-03-09得票数 0

回答已采纳

1回答

将使用BeautifulSoup检索的数据保存到数组中

、、

*嗨，伙计们，我是BeautifulSoup新手，我不太懂如何提取数据。我想提取亚马逊畅销书列表的前十个标题，并将其存储到一个数组中。我的目标是创建一个亚马逊的前10名列表，并为不同的类别一遍又一遍地复制这个过程。我只想提取产品的“标题”。这是我的代码：* from bs4 import BeautifulSoup import requests headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/601.3.9 (KHTML, like Geck

浏览 0提问于2020-08-10得票数 0

回答已采纳

2回答

如何识别HTML的正确部分，以便用python抓取剧集数据

、、

我正在尝试使用Beautifulsoup和requests模块来改进我的Python。我已经完成了一些教程，并且已经成功地从不同的地方抓取了数据，但是我不能设法让它工作。我知道有现成的产品imdb可以访问数据，但我喜欢用这个网站练习Python。我试图在上抓取每一集的标题，但我的代码只给了我一个空列表。 import requests from bs4 import BeautifulSoup URL = 'https://www.imdb.com/title/tt0094525/episodes?season=5&ref_=tt_eps_sn_5' header

浏览 2提问于2020-05-03得票数 1

1回答

不能一次打印所有的结果

、、、

我正在尝试创建一个脚本，它将从这个获取产品的标题和描述。在它的登陆页上有一个单一的产品。但是，当您查看左侧区域时，您将注意到一个标签标题为17 products。我也想抓住他们的title和description。实际上，名为17 products的选项卡不起任何作用，因为17种产品已经在页面源中了。我可以用以下的方式获取所有的18种产品。我不得不使用print两次打印所有18种产品。如果我附加结果并将它们打印在一起，脚本看起来会更加混乱。 import requests from bs4 import BeautifulSoup link = 'https://www.3m.co

浏览 2提问于2021-01-08得票数 0

2回答

从动态电子商务网页中抓取数据

、、、

我试图取消所有产品的标题在一个电子商务网站的网页上列出(在这个例子中，Flipkart)。现在，我要抓取的产品将取决于用户输入的关键字。输入产品'XYZXYZ‘时生成的典型URL是： http://www.flipkart.com/search?q=XYXXYZ&as=off&as-show=on&otracker=start 现在，使用此链接作为模板，我编写了以下脚本，根据输入的关键字，取消在任何给定网页下列出的所有产品的标题： import requests from bs4 import BeautifulSoup def flipp(k):

浏览 6提问于2014-09-27得票数 2

回答已采纳

2回答

无法从python中的html页面提取文本

、、

我对网络抓取非常陌生。我读到了关于BeautifulSoup的文章，并试图使用它。但我无法提取具有给定类名“company-desc-and-排序容器”的文本。我甚至不能从html页面中提取标题。这是我尝试过的代码： from BeautifulSoup import BeautifulSoup import requests url= 'http://fortune.com/best-companies/' r = requests.get(url) soup = BeautifulSoup(r.text) #print soup.prettify()[0:10

浏览 5提问于2016-12-20得票数 1

回答已采纳

0回答

使用BeautifulSoup从链接获取元数据

、、、、

我正在尝试抓取链接，以获得标题，描述和图像，以给出文章或网页的一个小概述。目前，我通过BeautifulSoup获取元属性来实现og:title。这对新闻文章很有效。 if tag.get("property", None) == "og:title": scraper.title = tag.get("content", None) 但是，，请不要拉出任何图片或产品名称。我如何使用BeautifulSoup和Python从任何网站--可能不仅仅是opengraph支持的网站--提取找到的第一张图片和标题？

浏览 10提问于2017-01-01得票数 0

1回答

如何循环通过csv文件的链接，以刮刮一个网站使用BeautifulSoup和请求而不是requests.exceptions.InvalidSchema？

、、

总的来说，我对编码非常陌生，感谢社区的任何支持！我想做什么：，我有一个csv文件，链接到各种产品，我想要获得产品的标题，并将它写回相同或另一个csv文件(并不重要)。为此，我尝试导入csv文件(它工作得很好)，将每一行写入一个列表(这同样有效)，然后选择列表中的每个值来提取产品标题。我的问题是：--单个链接的抓取工作--所以问题就在列表、循环、请求组合中，我想。如果运行以下代码，就会得到错误requests.exceptions.InvalidSchema。 from bs4 import BeautifulSoup import requests import csv f = open

浏览 2提问于2020-05-02得票数 0

回答已采纳

2回答

为什么查找函数在BeautifulSoup中不起作用？

、

我想从一块块中提取产品名称。我使用的是BeautifulSoup，问题是当我试图从select()中获取产品名称时，它会返回预期的数据，当我尝试find()时，它不会返回任何数据。为什么find()不在这里工作。 from bs4 import BeautifulSoup data = '''<span id="productTitle" class="a-size-large"> Alien 3 </span>''' soup = BeautifulSoup(data) print(sou

浏览 0提问于2018-03-10得票数 1

回答已采纳

3回答

如何在不同的行中显示python字符串？

、

我试图显示产品的标题和价格，我从一个链接，并对它们编号。到目前为止，这是我的密码。但是，我想在同一行上得到计数号和产品名，在另一行上得到产品价格。我该怎么修改我的代码？ import requests from bs4 import BeautifulSoup url = 'https://scrapingclub.com/exercise/list_basic/?page=1' response = requests.get(url) soup = BeautifulSoup(response.text, 'lxml') items = soup.find_a

浏览 5提问于2020-07-22得票数 0

回答已采纳

2回答

无法从网页解析产品标题及其价格

、、、

我试图从网页中获取产品标题和价格，但每次运行脚本时，我都会得到错误的，而不是内容。我查看了我在脚本中使用过的选择器所在的页面源代码。我试过： import requests from bs4 import BeautifulSoup link = 'https://www.amazon.com/dp/B01DOLQ0BY' res = requests.get(link,headers={"User-Agent":"Mozilla/5.0"}) soup = BeautifulSoup(res.text,"lxml") p

浏览 6提问于2019-11-07得票数 2

回答已采纳

1回答

用于检索href列表的优美汤

、、、、

谢谢大家的关注！我试图在搜索结果中检索产品的href。例如，本页：然而，当我缩小到产品图像类时，检索的href是图像链接.有人能解决这个问题吗？提前感谢！ url = 'http://www.homedepot.com/b/Husky/N-5yc1vZrd/Ntk-All/Ntt-chest%2Band%2Bcabinet?Ntx=mode+matchall&NCNI-5' content = urllib2.urlopen(url).read() content = preprocess_yelp_page(content) soup = BeautifulSou

浏览 2提问于2014-12-31得票数 0

回答已采纳

2回答

在超链接Python 3中搜索单词

、

我正在编写一个python 3脚本来抓取一个网站，并检查产品是否有库存。我遇到的问题是在我从BeautifulSoup抓取的超链接中搜索产品名称。产品名称将有一个空格，因此它实际上是2个单词，我认为这是导致问题的原因。 **传入product_name，示例："Blue Truck“示例链接：<a href="https://example.com/products/">Blue Truck</a> soup = BeautifulSoup(driver.page_source, 'html.parser') print("

浏览 0提问于2020-09-22得票数 0

1回答

在PyCharm中使用requests和BeautifulSoup后没有输出

、、、、

我想从《纽约时报》网站上获得一些头条。我有两个问题，问题1:这是我的代码，但我没有给我任何输出，有人知道我必须修改什么吗？ import requests from bs4 import BeautifulSoup url = 'https://www.nytimes.com' r = requests.get(url) soup = BeautifulSoup(r.text, "html.parser") a = soup.find_all(class_="balancedHeadline") for story_heading in a:

浏览 24提问于2020-04-12得票数 0

2回答

打印不带标签的h1标题

、

使用Beautiful Soup4，我尝试打印不带标签的h1内容。我使用的是python 3.6和Beautiful Soup 4。 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('https:/place_holder.com/') bs = BeautifulSoup(html.read(), 'html.parser') headings = bs.find_all('h1')

浏览 6提问于2019-08-09得票数 0

2回答

xpath如何打印多个元素

、、

我正在尝试使用HTMLSession和xpath在亚马逊的第一个产品页面上抓取产品标题。 from requests_html import HTMLSession from bs4 import BeautifulSoup def getTitle(url): session = HTMLSession() r = session.get(url) r.html.render(sleep=1) product = { 'title': r.html.xpath('//*[@class="a-siz

浏览 12提问于2020-11-21得票数 0

回答已采纳

1回答

如何在excel或csv上获取硒数据？

、、

这是我的完整密码。我想要得到输出数据的csv，如标题，价格一切将分隔列在csv或excel电子表格。我的代码将详细介绍每个产品的页面，并收集我所需的信息，如产品标题、价格等。 from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.sup

浏览 1提问于2020-05-08得票数 0

回答已采纳

1回答

页面标题中包含的类别和产品名称标准

、

是否可以命名页面标题中包含的类别和产品标准？现在仅显示默认标题。例如，类别' XXX‘中的产品标题必须具有自动页面标题:产品名称|XXX|默认标题。

浏览 1提问于2012-05-10得票数 1

1回答

AttributeError: NoneType对象没有属性“findAll”

、

我必须解析这个网页我应该得到标题--我的代码在这里，根本没有打印标题--有什么不对 #!/usr/bin/env python import urllib2 from mechanize import Browser from BeautifulSoup import BeautifulSoup import sys import csv mech = Browser() url = "http://www.india.gov.in/topics/health-family-welfare/health" page = mech.open(url) html = pa

浏览 2提问于2014-05-23得票数 0

回答已采纳

1回答

使用python检测HTML中图像的大小

、、、

我正在尝试实现一个类似于Facebook缩略图预览的功能。其想法是，用户输入产品的URL，并选择该产品的最佳图像。为了过滤掉明显不是产品的图像，我想根据高度和宽度> 150px来过滤它们。我正在使用python和BeautifulSoup下载超文本标记语言并提取图像，但无法找到在CSS中指定的高度或宽度的收集方法。

浏览 1提问于2011-06-06得票数 1

回答已采纳

2回答

如何使用BeautifulSoup抓取超链接标题？

、、

所以，我想要抓取的网站是: https//viewyourdeal-gabrielsimone.com‘ 产品名称和价格下的每个div class = "info-wrapper“我可以提取价格没有问题，但当我试图提取产品标题，它不能转换成文本，因为它的一个href链接。每个产品名称都在href下的div类下。所以我的问题是，我如何抓取产品名称？ import json from bs4 import BeautifulSoup import requests import csv from datetime import datetime url = 'https://v

浏览 0提问于2019-09-24得票数 0

1回答

BeautifulSoup并不是所有的标记都有。

、、

我正在学习如何用python3.8中的BeautifulSoup刮网，我遇到了一个问题，我找不到解决办法。我试着从这个页面中得到每一种产品的品牌：有68个产品，我只有60个，我知道我的脚本没有抓住第一个和最后一个产品，分别是华硕A540和联想Ideapad L340。这是我的剧本 from urllib.request import urlopen from bs4 import BeautifulSoup as soup my_url = 'https://www.linio.com.mx/c/computacion/pc-portatil' uClient

浏览 2提问于2020-10-29得票数 0

回答已采纳

2回答

在标签下获取文本

、、

我正试图在一个特定的月份获得所有链接、标题和日期，比如3月在网站上，我正在使用BeautifulSoup这样做： from bs4 import BeautifulSoup import requests html_link='https://www.pds.com.ph/index.html%3Fpage_id=3261.html' html = requests.get(html_link).text soup = BeautifulSoup(html, 'html.parser') for link in soup.find_all('td

浏览 4提问于2021-05-05得票数 2

回答已采纳

1回答

ms access change record positon in open form from another open form

、

我有一个表单绑定到“标题产品”表，与产品代码和描述。在一个子窗体上，我还显示了“子产品”，它们通过一个公共的头产品代码链接到头产品。当我双击产品代码时，我打开了一个新的表单，可以轻松地将子产品添加到这个标题产品中。用户从组合框中选择一个子产品(子产品已经存在)，然后单击"add“按钮。这一切都运行得很好，除了当我从新表单刷新页眉表单时，比如： Forms![RM Edit Header Products].Refresh 然后，它将标题记录移回开始位置，我需要标题记录的位置保持在原来的位置。所以在刷新之后，我尝试： Forms![RM Edit Header Products].

浏览 1提问于2015-05-11得票数 0

2回答

从网站上的搜索查询中提取产品URL

、、

例如，如果我想跟踪上MIDI键盘的价格变化。我需要从搜索中提取所有产品的URL，然后遍历产品的URL并提取每个产品的价格信息。我可以通过硬编码URL来获取单个产品的价格数据，但我无法找到自动获取多个产品的URL的方法。到目前为止我已经试过了， from bs4 import BeautifulSoup import requests url = "https://www.gear4music.com/Studio-MIDI- Controllers" response = requests.get(url) data = response.text soup = Be

浏览 5提问于2022-02-22得票数 1

回答已采纳

1回答

从SQL中的多个数据库行中删除特定字符串

我有一个包含页面标题的列，每个标题的末尾都附加了网站名称。(例如:产品名称|公司名称)我想删除“| Company Name Inc.”从多个行同时执行。什么样的SQl查询命令(或查询本身)可以让我实现这一点？为了重新说明，我想转换多行1列:产品名称|公司名称公司。对此:产品名称

浏览 1提问于2010-04-21得票数 2

1回答

提要导入-如果标题末尾有"=“，请检查是否存在重复内容

我有一个XML将产品导入到站点。但有些产品是复制的。重复的产品在标题的末尾有"=“，但并不是标题末尾有"=”的所有产品都是重复的。我需要的是，在导入XML时，检查产品是否存在，如果存在，不要导入(容易)，如果产品在标题末尾有"=“，检查标题末尾是否存在"=”。如果存在，不要导入，否则导入。我完全不知道该如何做，是应该编写一些提要篡改模块来处理这种行为，还是完全超出drupal并解析XML，将其与当前的drupal产品数据库进行比较，并导出新的XML导入到drupal？任何建议都将不胜感激！

浏览 0提问于2018-08-07得票数 0

回答已采纳

3回答

抓取Python脚本不返回

、、

我试图从amazon抓取数据，特别是产品标题，但是运行我的脚本只返回一个 import requests from bs4 import BeautifulSoup URL = 'https://www.amazon.com/Dell-Inspiron-5570-Touchscreen-Laptop/dp/B07FKRFTYW/ref=sxbs_sxwds-deals?keywords=laptops&pd_rd_i=B07FKRFTYW&pd_rd_r=38a464f1-5fc2-4e1e-91a3-c209f68e2b8c&pd_rd_w=IbLEX&am

浏览 0提问于2019-07-05得票数 0

回答已采纳

1回答

在python中使用漂亮汤时无法在Amazon上获得产品的价格

、、、、

我试着用漂亮的汤来跟踪产品的价格，但是每当我尝试运行这个代码时，我就会得到一个6位数的代码，我认为这与recaptcha有关。我试了很多次，检查了标题、url和标签，但是似乎没有什么效果。 from bs4 import BeautifulSoup import requests from os import environ import lxml headers = { "User-Agent": environ.get("User-Agent"), "Accept-Language": environ.get("A

浏览 12提问于2022-11-28得票数 0

回答已采纳

1回答

使用JS从页面中提取标题时，Python出错

、、

我有一些严重的问题，试图从网页中提取标题。我以前在其他网站上也这样做过，但是这个似乎是一个问题，因为Javascript。测试链接是"“。我想要提取的第一个标题是"Toagosei America，Inc.“。这是我的代码： import requests from bs4 import BeautifulSoup url = ("https://www.thomasnet.com/products/adhesives-393009-1.html") r = requests.get(url).content soup = BeautifulSoup(

浏览 4提问于2020-06-18得票数 0

回答已采纳

1回答

在python中尝试使用BeautifulSoup抓取任何数据时，为什么我总是得到无列表或空列表

、、、

我正在尝试从amazon.com中提取一个简单的产品标题，使用包含该标题的跨度所具有的id。这是我写的： import requests from bs4 import BeautifulSoup url = 'https://www.amazon.com/Acer-SB220Q-Ultra-Thin-Frame-Monitor/dp/B07CVL2D2S/ref=lp_16225007011_1_7' res = requests.get(url) soup = BeautifulSoup(res.content, 'html.parser') title

浏览 48提问于2021-02-12得票数 0

1回答

编辑大于100的大型文件时的一些问题

有时，当编辑大文件，如超过100。(我的pc物理内存为128 is，使用nvme ssd) 小零钱。还是快救？当我对文件做了一个小小的修改时，比如删除文件的第一行。有更有效的方法来完成这个功能吗?200 Is文件保存需要半个小时。有时执行编辑器将检测json或csv错误行。把这些行标记成书很容易吗？因此，提取或删除这些行很容易。可用于替换?中的序列号自动填充。当编辑超过100米行时。我知道，正常的函数应该切换到csv模式，并插入一个新的列。然后满是序列号。这些步骤也很费时. 这些步骤可以用替换功能来填满吗？举个例子。示例： {“流派”：“戏剧”，“产品”：“冰淇淋-超级三明治”，“标题

浏览 0提问于2021-08-17得票数 0

回答已采纳

3回答

即使有一个元素，漂亮的汤也不会返回。

、、

尝试使用标头标记筛选产品名称列表，但始终不返回任何内容。来源：代码： import requests from bs4 import BeautifulSoup def ExtractData(url): response = requests.get(url=url).content soup = BeautifulSoup(response, 'lxml') header = soup.find("mat-card-header", {"class": "mat-card-header ng-tns- c9-188"})

浏览 8提问于2022-02-11得票数 2

回答已采纳

2回答

使用SoupStrainer有选择地进行解析

、、

我正在尝试解析一个购物网站的视频游戏标题列表。但是，由于项目列表都存储在一个标记中。文档的部分应该解释了如何只解析文档的一部分，但我无法解决这个问题。我的代码： from BeautifulSoup import BeautifulSoup import urllib import re url = "Some Shopping Site" html = urllib.urlopen(url).read() soup = BeautifulSoup(html) for a in soup.findAll('a',{'title':re.com

浏览 2提问于2010-10-24得票数 4

1回答

在一组表格下选择一组特定的单元格，使用python和漂亮汤

、、、

考虑有N个网页。每个网页都有一个或多个表。表的共同点是它们的类是相同的，考虑到"table_class."We需要同一列下的内容第三列，标题是每个table.Contents的标题意思，第三列中的href链接来自所有行。一些行可能只是纯文本，而有些行可能有href链接。您应该将每个href链接逐个打印在单独的行中。使用属性进行筛选的无效，因为某些标记具有不同的属性。单元格的位置是唯一可用的提示。你如何对此进行编码？考虑以下两个web页面的链接：考虑下表: wikitable 必填内容:列标题的href链接我在一个页面上尝试过的代码： from urllib.requ

浏览 58提问于2015-04-09得票数 1

回答已采纳

1回答

如何使用python提取amazon产品链接

、

我是Python的初学者，我只想从amazon页面中删除产品链接。例如，我想废除这个页面，我在python中使用了这段代码。 from bs4 import BeautifulSoup import requests url = "http://www.amazon.com/s/ref=sr_in_-2_p_4_18?me=A3MZ96G5C78IVQ&fst=as%3Aoff&rh=p_4%3AFunKo&ie=UTF8&qid=1477811368" r = requests.get(url) soup = BeautifulSoup(r.c

浏览 2提问于2016-10-30得票数 1

回答已采纳

1回答

刮擦价格

、

我应该做一些网站刮多个deliveroo网站，我需要提取的信息是各种产品的标题和价格。我尝试过使用BeautifulSoup库，但是我需要提取的信息是嵌套的。我设置了这样的代码： import pandas as pd import requests #the website URL url_link = "https://deliveroo.it/en/menu/jesolo/jesolo/burger-king-jesolo" result = requests.get(url_link) print(result) 从这里可以看出，我可以进行刮擦，因为结果是：<Re

浏览 3提问于2022-06-13得票数 1

2回答

无法从网页上刮取产品标题

、、、、

我试图使用请求模块在这个中抓取产品的标题，但是即使产品标题在页面源(ctrl + U)中，脚本也总是抛出AttributeError。我尝试过(throws AttributeError)： import requests from bs4 import BeautifulSoup link = 'https://www.cclonline.com/product/334427/GV-N3070AORUS-M-8GD-1-1/Graphics-Cards/Gigabyte-AORUS-GeForce-RTX-3070-MASTER-8GB-Overclocked-Graphics-

浏览 12提问于2021-06-08得票数 7

回答已采纳

1回答

如何从wordpress标题的末尾获取一些数字/字符并显示它们？

、、、

我正在做的wordpress主题是portfolio风格的，并被用作产品目录。问题是，每种产品的价格都写在wordpress/post标题的末尾，比如“产品名称-100，00欧元”或“产品名称-100欧元”，我想在一个变量中获取并显示价格，只像“100，00欧元”或“100欧元”。因此，我必须检测并仅显示末尾的数字。从标题的开头开始修剪可能会起作用(计算整个标题的长度并删除价格的位数，但不是所有的价格都有相同的长度:-P) 任何帮助都将不胜感激！谢谢!

浏览 0提问于2017-01-29得票数 1

2回答

如何修复Python中使用漂亮汤的关键错误？

、、

下面的代码有问题。我想提取每个产品的标题，URL，图像URL和产品编号。并将数据解压缩到Excel电子表格中。 import requests from bs4 import BeautifulSoup import pandas as pd url = 'https://b2b.pmsinternational.com/search/?q=&submit=Search+Product+Name' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser&

浏览 0提问于2021-07-20得票数 0

1回答

BeautifulSoup Find随机返回None

、、、

我们正在尝试从with中抓取产品，但BeautifulSoup find方法出现了一些奇怪的问题。我们在产品url上调用soup.find('span'，{"class“："mainPrice ng-scope ng-binding"})来获取价格。当我们遍历产品urls (通过web爬行)时，soup.find调用将在随机时间返回none。例如，在程序的一次运行中，它在第二个链接上返回none。当程序在没有任何更改的情况下立即运行时，它通过了第二个链接，并在第8个链接上失败。下面是我们的代码： def findPrice(soup):

浏览 2提问于2016-12-01得票数 0

1回答

Python Web Scraper尝试让程序抓取某个特定位置的数据，而不是整个页面

、、

我浏览了网页，在网上阅读和观看了几个关于如何解决我的问题的指南，但我被卡住了，希望能得到一些意见。我试图建立一个网络刮板，将从刮并购交易部分，并已成功地编写了一个程序，可以刮标题，摘要，日期和链接的文章。然而，我试图解决的问题是，我希望程序仅从标题/文章中抓取摘要，这些标题/文章位于合并和收购列的正下方。当前的程序正在抓取它看到的所有用标签“文章”和属性/类“故事”表示的标题，因此不仅从合并和收购栏目中抓取标题，而且还从市场新闻栏目中抓取标题。一旦机器人开始从市场新闻栏目中抓取标题，我就一直收到属性错误，因为市场新闻栏目没有任何摘要，因此没有文本可拉，导致我的代码终止。我试图用try/exc

浏览 11提问于2020-03-17得票数 1

回答已采纳

3回答

获取与具有特定值的标记相同的父标记内的标记的值

、、、、

标题很冗长，但描述了我想要的东西。我正在用BeautifulSoup解析一个XML。我的XML格式如下： <properties> <place> <house_id>12345</house_id> <appliances>Fridge, Oven</appliances> <price>350000</price> </place> <place> <house_id>67

浏览 10提问于2021-10-20得票数 0

2回答

抓取Python需要的建议

、、、、

我需要从一个商业网站获得产品ID。产品ID是URL末尾的编号系列。例如：http://example.com/sp/123170/有产品ID 123170。一些要求：代码必须由Python编写由于产品的数量很大，我希望软件能够重新启动后，因为一些原因，它停止。每天可以跑一次。新产品每天都会更新/添加，所以软件需要能够处理这个问题。如果可能的话，我很乐意使用Google应用程序引擎。请向我推荐一些想法和开源代码为这项工作。我找到了Beautifulsoup.和scrapy.org也请给我一些建议，哪一个更适合这个目的？

浏览 3提问于2012-12-21得票数 0

回答已采纳

1回答

使用漂亮汤进行Web抓取(在循环中出错)

、、

我是Python编程的新手，我试着做web抓取，只是为了学习使用Beautifulsoup，应用迭代器使用for循环，但我猜它只运行了一次，而下一次它显示了一些错误，尝试了很多，但是无法解决。下面是我的密码- from bs4 import BeautifulSoup from urllib.request import urlopen url = 'https://www.packtpub.com/all' page = urlopen(url) soup_packtpage = BeautifulSoup(page,'lxml') page.close

浏览 0提问于2017-12-23得票数 0

4回答

Selenium Web抓取没有ids或类名的嵌套div

、、、、

我正在尝试使用selenium从嵌套的HTML表中获取产品名称和数量。我的问题是有些div没有任何id或类名。我要访问的表是关键产品列表。这是我所做的，但我似乎对如何获得嵌套的div感到迷惑不解。该网站在代码中。 options = Options() options.add_argument('start-maximized') driver = webdriver.Chrome(chrome_options=options, executable_path=r'/usr/local/bin/chromedriver/') url = 'https:

浏览 5提问于2020-09-02得票数 0

1回答

我从python上看到的东西和我从firebug上看到的不一样。

、、

我正在练习写一个网络爬虫，从一个网站抓取一些有趣的信息。我在我的个人网站上尝试了这段代码。它按照我的预期工作，但当我试图在一个真实的网站上实现这段代码时，它并没有显示出它应该显示的内容。有谁有什么想法吗？以下是我的代码和结果。 import requests from bs4 import BeautifulSoup url = 'https://angel.co/parkwhiz/jobs/284942-product-manager' page = requests.get(url).text soup = BeautifulSoup(page,'lxml'

浏览 4提问于2018-02-09得票数 1

回答已采纳

1回答

Python爬虫的BeautifulSoup提取

、、、

我正试着从图片中提取标题。我已经成功地提取了url，但不确定如何对图像标题的提取进行编码。 import requests from bs4 import BeautifulSoup def trade_spider(max_pages): page = 1 while page <= max_pages: url = 'http://www.gurstree.com.au/s—cars—vans—utes/melbourne/page—' + str(page) + '/c1832013001317'

浏览 1提问于2017-01-24得票数 0

3回答

Python ()无法正常工作

、、

我有一个程序，它应该去和获得的URL的亚马逊产品的标题： import requests from bs4 import BeautifulSoup URL = "https://www.amazon.co.uk/dp/B0756CYWWD?tag=productfinder-headphones-uk-21&linkCode=ogi&th=1&psc=1" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.

浏览 13提问于2020-07-29得票数 1

回答已采纳