Python，无法使用BS和请求对pdf文件的链接进行and抓取_如何使用请求库对已抓取的链接列表进行use抓取_如何在python中使用bs4和请求更新网页抓取的数据 - 腾讯云开发者社区

python、web-scraping、python-requests

我正在使用python中的requests库，并试图抓取一个包含大量.pdf格式的公共报告和文档的网站。我已经在其他网站上成功地做到了这一点，但我在这个网站上遇到了一个障碍:链接是javascript函数(对象？我对javascript一无所知)，它会将我重定向到另一个页面，然后这个页面就会有原始的pdf链接。如下所示： import requests from bs4 import BeautifulSoup as bs url = 'page with search results.com' html = requests.get(url).text soup = bs(

浏览 0提问于2018-09-12得票数 3

1回答

使用Python进行Web抓取，而无需加载整个页面

python、python-3.x、web-scraping、web-scraping-language

我刚用Python开始了几个web抓取项目。我目前使用lxml，Beautiful Soup和requests模块来抓取网页。我需要知道是否有任何方法可以只从网站获得我们需要的数据，而不是加载整个页面。requests模块执行GET请求并接收整个，bs4，lxml只过滤数据。我尝试过Selenium，但这也打开了浏览器，这不太适合工业项目。我对scrapy和splash一无所知。我也不是在寻找API key方法，它并不适用于所有地方。

浏览 28提问于2021-11-13得票数 0

回答已采纳

1回答

Web通过python抓取问题，不能读取html文件吗？

python-3.x、web-scraping、beautifulsoup

web抓取Python已经有一段时间了，最近我遇到了这个问题。BeautifulSoup似乎无法读取html文件。例如，我正试着从这个网站上抓取这是我的密码 from bs4 import BeautifulSoup import requests url_episode = 'https://www.thetvdb.com/series/initial-d/episodes/4889010' print(url_episode) getdetail_episode = requests.get(url_episode) soup = BeautifulSoup(getde

浏览 1提问于2020-04-06得票数 0

1回答

在抓取需要登录的网站时，我需要哪些信息？

python、web-scraping

我想在某个网站上访问我的业务数据库，并使用Python进行抓取(我使用的是Requests和BS4，如果需要，我可以做得更多)。但我不能。谁能提供我们的信息和简单的资源，如何抓取这样的网站。我不是在说提供用户名和密码。这个网站需要的远不止这些。除了UN和PW之外，我如何知道我需要为脚本提供的信息(例如，我如何知道我必须提供身份验证令牌)？当站点中没有HTTP，但却有javascript:__doPostBack形式的hrefs时，该如何处理？在这方面，我如何从登录页面转换到我想要的页面(包含在前面提到的javascript：__doPostBack中的页面)？我使用的库足够了吗？或者，

浏览 4提问于2018-08-02得票数 0

2回答

BeautifulSoup从Google获取<cite>标签

python、beautifulsoup

我正在制作一个Python脚本，它在上搜索一个术语，并且只获取PDF链接。我试图抓取“绿色”搜索结果标记为<cite>。它们不是链接，只是标题。到目前为止，这就是我所拥有的： from bs4 import BeautifulSoup import requests import re url = "http://www.google.com/search?q=shakespeare+pdf" get = requests.get(url).text soup = BeautifulSoup(get) pdf = re.compile(r"

浏览 6提问于2015-07-04得票数 1

回答已采纳

1回答

无法从网站中抓取数据: Python BS4

python、web-scraping、beautifulsoup

我正在尝试使用带有python的从BS4中抓取数据。我尝试过许多方法，但无法检索到任何信息。看起来这是API什么的直接响应。有人能帮我朝正确的方向走吗？待收集的数据：谢谢,

浏览 0提问于2018-10-29得票数 0

回答已采纳

1回答

如何根据文件扩展名在bs4汤中设置过滤器？

python、beautifulsoup

我成功地用python中漂亮的从soup4中获得了每个文件细节。该类别包含.jpg和.pdf文件扩展名。我如何过滤，以获得详细的pdf-文件？代码;- #!/usr/bin/env python # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup rUrl = u'https://commons.wikimedia.org/wiki/Category:பண்டிதர் க. அயோத்திதாசர்' #getting all the data from above the cat

浏览 0提问于2018-05-13得票数 0

回答已采纳

1回答

如何从没有明显url的搜索结果中刮取pdf和html？

python、html、python-3.x、pdf、beautifulsoup

我想从这个页面的搜索结果中抓取pdfs和htmls：并遍历67页的结果，但是似乎没有一种找到相关urls的简单方法。基本的BeautifulSoup代码似乎无法提取pdfs，我也不知道如何遍历搜索结果。 import os import requests from urllib.parse import urljoin from bs4 import BeautifulSoup url = "http://www.nas.gov.sg/archivesonline/speeches/search-result" #If there is no such folder, t

浏览 0提问于2019-08-17得票数 0

回答已采纳

1回答

Web抓取:如何在一般情况下判断页面是否包含以javascript呈现的内容

python-3.x、web-scraping、beautifulsoup

当一个网站用javascript呈现内容时，你怎么能大致判断出来呢？我通常使用bs4来抓取，当我找不到标签时，我不确定是因为它的javascript呈现( bs4无法检测到)还是我做错了什么。

浏览 30提问于2021-03-11得票数 3

3回答

(BeautifulSoup，请求)

python、web、web-scraping、beautifulsoup、python-requests

我正在学习使用python进行web抓取，但是我无法获得预期的结果。下面是我的代码和输出代码 import bs4,requests url = "https://twitter.com/24x7chess" r = requests.get(url) soup = bs4.BeautifulSoup(r.text,"html.parser") soup.find_all("span",{"class":"account-group-inner"}) [] 这是我想要刮的东西我一直得到一个空数组。请帮帮忙。

浏览 1提问于2017-10-21得票数 0

回答已采纳

1回答

将项目列表视为单个项目错误:如何在已抓取的字符串中查找每个“link”中的链接

python、web-scraping、beautifulsoup、python-requests

我正在写一个python代码来从这个网站上抓取会议的pdf： pdf链接在链接内，链接也在链接内。我有上面页面上的第一组链接，然后我需要在新的urls中抓取链接。当我这样做时，我得到以下错误： AttributeError: ResultSet object has no attribute 'find_all'. You're probably treating a list of items like a single item. Did you call find_all() when you meant to call find()? 到目前为止，这是我的代

浏览 9提问于2019-07-11得票数 0

回答已采纳

1回答

webscraping:使用python: airbnb列表从html中的xpath中提取url

python、xpath、web-scraping、beautifulsoup、lxml

我正在尝试使用Python3库从AirBnb的城市页面中提取列表的urls。我熟悉如何使用Beautifulsoup和requests库来抓取更简单的网站。网址：'‘ 如果我检查页面上链接的元素(在Chrome中)，我会得到： xpath: "//*[@id="listing-9770909"]/div[2]/a" selector: "listing-9770909 > div._v72lrv > a" 我的尝试： import requests from bs4 import BeautifulSoup url =

浏览 16提问于2018-08-31得票数 0

1回答

使用python从网站下载文件

python、web-scraping

我需要下载所有的文件从()给定的网站。它有1995年到2017年的数据，每年都有需要下载的文件的多个链接。Th文件采用.pdf、.htm和.txt格式。我试着通过查看各种教程来抓取数据，但我需要做的与通常的web抓取教程不同。我使用了以下代码，但它没有达到我的目的。我是python的新手，我被困在了如何前进的道路上。有谁能建议一下需要做些什么吗？ import requests from bs4 import BeautifulSoup r = requests.get("https://www.sec.gov/litigation/suspensions.shtml") r

浏览 0提问于2017-05-26得票数 1

3回答

如何在网页抓取时登录网站

python、beautifulsoup、youtube

我正在制作一个web刮刀，它可以将我的YouTube频道统计数据带回到python中，所以我去了我的YouTube站点，复制了这个链接并用bs4粘贴它打印了汤。我完成了整个测试，并创建了一个html文件，当我查看它时，它是YouTube登录页面。因此，现在我想登录这个(假设我可以在文本文件中提供密码和电子邮件id )，以便刮除yt的统计数据。我不知道这个(我对网络抓取是新的)。

浏览 3提问于2021-01-24得票数 0

回答已采纳

1回答

Python:从html的href标签中获取javascript文件

javascript、python、html、web、web-scraping

考虑一个类似以下内容的网站：可以看到，该网站包含由页面源代码中的href标记引用的pdf文件的链接，例如： <a href="javascript:$('form_cofo_pdf_view_B000114563.PDF').submit();">B000114563.PDF</a> 我想用python打开底层文件，有效地抓取结果。 req = urllib2.Request("link.com") page = urllib2.urlopen(req) soup = BeautifulSoup(page) link

浏览 6提问于2016-09-09得票数 1

2回答

使用python抓取AJAX电子商务站点

python、ajax、web、beautifulsoup、screen-scraping

我在使用BeautifulSoup抓取电子商务网站时遇到了问题。我做了一些谷歌搜索，但我仍然无法解决问题。请参阅图片： Chrome F12： Result：这里是我试图刮的网站："“ 问题：当我试图打开Google (F12)上的检查元素时，我可以看到产品的名称、价格等。但是当我运行python程序时，我无法在python结果中得到相同的代码和标记。在googling之后，我发现这个网站使用AJAX查询来获取数据。任何人都可以通过抓取AJAX站点来帮助我获得这些产品的数据。我想用在表格中显示数据。我的代码： import requests f

浏览 0提问于2019-01-28得票数 2

回答已采纳

1回答

列出网页上所有带扩展名的文件的路径

python、python-requests

在python中是否有一个命令或方式请求库从网页上下载具有特定扩展名的所有文件？或者至少列出它们的完整路径，如ftp库中的nest命令？这是页面：，我想要扩展名为.grib的所有文件 import re from bs4 import BeautifulSoup as soup data_html = soup(r'https://gimms.gsfc.nasa.gov/SMOS/jbolten/FAS/L03/', 'lxml') # making soap links = data_html.findAll(href=re.compile("/.g

浏览 0提问于2018-07-13得票数 0

1回答

使用Scrapy下载PDF文件

python、session、cookies、scrapy

我正在使用一个Python web抓取框架Scrapy从一个网站抓取pdf文件。网站需要遵循相同的会话，才能允许您下载pdf。它在Scrapy上工作得很好，因为它是自动的，但当我在几秒钟后运行脚本时，它开始给我假的pdf文件，就像我试图在没有会话的情况下直接访问pdf一样。为什么会这样&你知道如何克服这个问题吗？

浏览 1提问于2011-11-13得票数 0

2回答

基于日期抓取表数据

python、web-scraping、beautifulsoup、screen-scraping

我正在尝试抓取kurs事务的表从2015-2020年，但问题是默认日期和我选择的日期之间的链接仍然是相同的。那么我如何告诉python从2015-2020(20-11-15-20-11-20)抓取数据呢？我对python和python3的使用非常陌生。 import requests from bs4 import BeautifulSoup import pandas as pd headers={ "User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Ch

浏览 0提问于2020-11-24得票数 0

2回答

无法使用Python从网站中抓取数据

python、python-3.x、python-2.7

我想从“在交易所交易的债券”和“场外交易”中提取表格，并将其保存到excel工作表中。我正在尝试用python抓取数据( BS & requests )，但是我无法抓取数据(我不想使用selenium)。any1可以指导我吗？我没有收到任何错误，它没有在python终端中被处理我认为终端被挂起了，因为我甚至没有得到任何错误消息。 import requests import pandas as pd import os from bs4 import BeautifulSoup as bs url = "https://www1.nseindia.com/product

浏览 22提问于2021-09-09得票数 1

回答已采纳

1回答

Python -下载包含在JQueryFileTree中的PDF文件

python、jquery、selenium、web-scraping、download

我正在创建一个文件下载，以自动下载PDF从一个与我的雇主的公司有关的网站。它看起来像是PDF包含在一个JQueryFileTree中。有没有方法可以下载下面的一个文件夹，并将其与其内容PDF一起保存到磁盘中？到目前为止，我正在使用Python和selenium来自动登录等等。谢谢到目前为止我的代码是： from selenium import webdriver from time import sleep import requests from bs4 import BeautifulSoup as bs import secrets class manual_grabbe

浏览 1提问于2020-08-14得票数 0

回答已采纳

1回答

使用Python抓取aspx页面

python-3.x、web-scraping、beautifulsoup

我从来没有使用过网络抓取，但现在我认为这是唯一能帮助我做我想做的事情。因此，我在互联网上查看了一个示例代码。这个在StackOverflow上被接受的答案似乎就是我想要的：这不起作用，给了我一个"403禁止的错误“，因为@andrej Kesely说:我必须指定User-Agent 然后我在他回答后更新了问题： import os import requests from urllib.parse import urljoin from bs4 import BeautifulSoup # an example of a working url #url = "http:/

浏览 27提问于2021-03-11得票数 1

回答已采纳

1回答

如何在Python中对带有图片的表格进行and抓取并导出到Excel中？

python、web-scraping、beautifulsoup

我正试着从URL上盗取一张桌子我可以使用Scrapestorm工具抓取表格数据。我是python的新手，不能从这个URL获取数据。 from bs4 import BeautifulSoup page = requests.get('https://pantheon.world/explore/rankings?show=people&years=-3501,2020') soup = BeautifulSoup(page.text) Excel中所需的输出： enter image description here 从网页上抓取表格数据和图片是可能的吗？

浏览 61提问于2020-12-23得票数 1

回答已采纳

1回答

使用python的Web抓取找不到网站链接

python、web-scraping、beautifulsoup、scrapy

我刚开始使用python进行网络抓取。我已经成功地学会了从一些网站抓取信息，比如和维基百科。但我遇到了一个网站，没有打开一个新的网页链接时，搜索特定的数据。我无法理解如何刮这个网站。任何帮助都是非常感谢的。网址：在搜索字段中，您可以输入“柏林，德国”(Ihr Standort)字段，查看网站地址，但不会更改。此外，我还查看了检查字段，我看不到任何链接来刮取数据。任何帮助都是非常感谢的！以下是我从其他网站提取信息所用的代码： import requests from bs4 import BeautifulSoup, NavigableString, Tag import urllib.

浏览 1提问于2021-03-02得票数 0

回答已采纳

1回答

如何在多个页面上抓取链接标题并通过指定的标签

python、beautifulsoup

我很难弄清楚如何使用BeautifulSoup来抓取页面上所有的100个链接标题，因为它是在"a href =.“下。我已经尝试了下面的代码，但它返回一个空白。 from bs4 import BeautifulSoup from urllib.request import urlopen import bs4 url = 'https://www150.statcan.gc.ca/n1/en/type/data?count=100' page = urlopen(url) soup = bs4.BeautifulSoup(page,'html.parser

浏览 17提问于2020-06-02得票数 0

回答已采纳

1回答

Python -抓取单击后加载的数据

python、web-scraping、beautifulsoup

我对Python有点陌生，对于我的一个研究项目，我需要一个网络刮刀来抓取网络内容来创建一个数据集。由于大多数帖子都建议使用漂亮的汤包，所以我试着基于Python构建了一个web抓取器。我需要抓取的数据是在单击网页上的按钮后加载的。下面是一个例子：当点击"12条评论“时，弹出窗口加载并显示评论。我需要删掉这些评论。我尝试了许多方法，但到目前为止似乎都不起作用。如果有什么需要做的，有人能检查一下我的代码吗?或者给我提供另一种方法？ import bs4 import requests session = requests.Session() url = "ht

浏览 1提问于2015-09-27得票数 0

2回答

如何从shtml链接集合中抓取或下载pdf？

python、r、pdf、web、screen-scraping

我抓取了一个shtml链接列表。它们现在保存在.xlsx文件中。我已经尝试过寻找excel宏、r代码、python代码、chrome扩展和桌面程序。我找不到任何对我有帮助的研究。每个.shtml链接都指向一个网页，该网页的中心至少有一个我需要下载的.pdf。感谢任何人的帮助！

浏览 0提问于2019-07-27得票数 0

1回答

如何使用Bs4来抓取包含HTML实体的内容

python、json、web-scraping、beautifulsoup、python-requests

免责声明:我对python非常陌生，所以我可能无法正确地声明我的怀疑--我试图在python中使用Bs4来抓取请求响应的某一部分，我相信它是json格式的，如下所示。。然而，当我打印响应的内容时，它只是像那样以一行长的形式打印，并包含诸如"；和\n这样的实体，这使得我无法尝试找到我需要的特定部分。如何使\n实际上执行换行和"；实体转换为实际引号，以便我能够正确地使用Bs4来刮取内容？我应该使用Python中的其他刮板吗？对不起，如果我的问题不够清楚，请让我知道如何使我的怀疑更清楚。

浏览 4提问于2020-09-20得票数 0

回答已采纳

2回答

使用python请求进行Web抓取

python、web-scraping

我想要抓取并下载在搜索结果中显示的整个PDF文件集(比如2016年1月1日)。员工字段是可选的。单击search，站点将弹出所有员工的列表。我无法使用python请求让post方法工作。一直收到405错误。我的代码如下 from bs4 import BeautifulSoup import requests url = "https://sparrow.eoffice.gov.in/IPRSTATUS/IPRFiledSearch" data = { 'assessmentYearId':'vH4pgBbZ8y8rhOFBoM0g7w

浏览 0提问于2019-01-13得票数 1

1回答

如果链接不包含.pdf，如何测试链接目标是否为pdf文件

python、selenium、selenium-chromedriver

我正在使用selenium来抓取多种格式和样式提供的文件--试图同时处理html和pdf，当链接的目标是pdf文件时，我遇到了一个问题，但是链接本身不包含'.pdf‘， (请注意，其中一个文件会自动下载，其中一个只显示文件--至少在chrome中是这样)，所以可能还需要对两个不同类型的pdf目标进行测试？) 有没有一种方法可以编程地判断链接的目标是否是pdf，而不仅仅是检查它是否以.pdf结尾呢？无论内容如何，我都无法下载该文件，因为我对html文件有不同的处理方式，在这里，我想跟踪辅助链接，看看是否可以找到pdfs，如果目标是pdf，它就不能工作。 ETA:被接受的答案是完美的--

浏览 3提问于2016-05-20得票数 3

回答已采纳

3回答

无法下载网页的完整源代码

python

我正在尝试使用python请求库来抓取网页。但我无法下载完整的html源代码。当我使用我的web浏览器检查元素时，它给出了完整的html，我相信它可以用于抓取，但当我使用python请求库访问这个url时，那些包含数据的html标记就消失了，我无法从这些标记中抓取数据。下面是我的示例代码： import requests from bs4 import BeautifulSoup as BS import urllib import http.client url = 'https://www.udemy.com/topic/financial-analysis/?lang=en&#

浏览 5提问于2019-07-30得票数 1

1回答

从网站下载年度报告的脚本(总计70,000份)

python、web-scraping

它只有38行代码，而且我以前还没有这么多地使用过网络抓取。我的代码在他们的服务器上会有多重？这是为了深度学习的目的，我还没有运行它，但一旦我开始下载70k的pdfs，它会导致我的IP被禁止四分之一的方式吗？而且，我也不知道这样做的效率有多高(现在我甚至不知道文件是否存在，而且每次运行程序时我都会覆盖它，所以如果我的代码中途中断，我就必须再次运行它，它就会从头开始下载所有文件)。我必须解决这个问题)。但无论如何，这是代码： # Scrapes all pdfs off from www.annualreports.com # Haven't tested yet but sho

浏览 0提问于2019-09-15得票数 3

3回答

在mac终端中使用Python 2.7.3进行网页爬行的代码？

python、screen-scraping、wget、web-crawler

我是一名社会科学家，在编码方面完全是新手/菜鸟。我已经搜索了其他问题/教程，但无法获得如何抓取新闻网站的要点，特别是针对评论部分。理想情况下，我希望告诉python抓取多个页面，并将所有注释作为.txt文件返回。我试过了 from bs4 import BeautifulSoup import urllib2 url="http://www.xxxxxx.com" 在收到一条错误消息指出bs4不是一个模块之前，我只能这样做。我非常感谢在这方面的任何形式的帮助，如果你决定回应，请为我简化它！我可以在终端上运行wget，并从网站获得各种文本，如果我真的能弄清楚如何将单个输出的ht

浏览 2提问于2013-03-29得票数 0

2回答

抓取已用python抓取的链接中的链接

python、html、web-scraping、beautifulsoup

我正在从一个地方政府网站上抓取很多委员会会议的pdf文件。()因此有链接..在链接中...在链接中。我可以成功地从页面的主要区域(我想要的那些)中抓取所有的'a‘标记，但当我试图抓取其中的任何内容时，我在问题的标题中得到了错误: AttributeError: ResultSet object没有'find’属性。您可能会将一列项目视为单个项目。当您打算调用find_all()时，您是否调用了find()？我该如何解决这个问题？我对编程完全陌生，昨天开始了一份实习工作，我希望通过网络获取这些信息。和我一起工作的那个女人再过几天就不会来了，没有其他人能帮助我--所以请容忍我，对

浏览 12提问于2019-07-09得票数 3

回答已采纳

1回答

Python从网站抓取PDF为什么它们都损坏了，而且大小相同？

python、pdf、web-scraping、python-requests

希望这将是一个简单的问题。我正在尝试做一些网页抓取，我从一个页面下载所有的pdf文件。目前，我正在从一个体育页面上抓取文件进行练习。我使用了Automatetheboringstuff +来自另一个用户()的帖子来编写这段代码。 import requests import time from bs4 import BeautifulSoup, SoupStrainer r = requests.get('http://secsports.go.com/media/baseball') soup = BeautifulSoup(r.content) for link in

浏览 0提问于2017-05-03得票数 1

2回答

从多个Web中提取Web链接

python

我需要提取网页链接以从这些页面下载PDF文件，我正在考虑从网站提取网页链接，然后过滤掉PDF链接，并使用下载管理器下载所有pdf文件。如何在python代码中使用多个链接来下载所有链接，它只适用于一个网页链接。 from bs4 import BeautifulSoup urls = 'https://www.nzx.com/announcements/190008' urls = 'https://www.nzx.com/announcements/372918' urls = 'https://www.nzx.com/ann

浏览 0提问于2021-06-15得票数 2

1回答

登录到安全的网站，自动打印页为pdf

python、selenium、pdf、salesforce、pdfkit

我一直在探索如何使用python登录到一个安全的网站(例如。( Salesforce)，导航到某个页面，并将页面打印(保存)为pdf格式。我试过使用： pdfkit.from_url:使用请求获取会话cookie，解析它，然后将它作为cookie传递到wkhtmltopdf的选项设置中。由于pdfkit无法识别我传递的cookie，此方法无法工作。 pdfkit.from_file:使用Request.get获取要打印的页面的html，然后使用pdfkit将html文件转换为pdf。这是可行的，但页面格式和图像都丢失了。 Selenium:使用webdriver登录，然后导航到想

浏览 11提问于2016-11-21得票数 1

1回答

如何使用美丽的汤和熊猫从这个网站上捕获结构化格式的表格？

python、pandas、dataframe、beautifulsoup、python-requests

我想从这个网站上抓取表格，因为它每小时都在更新，所以我也想跟踪变化。我尝试过使用selenium抓取数据，但它们都在一个列中，没有任何表。如何使用pandas和Beautiful Soup以结构化的格式抓取表格并跟踪更改。这就是我想弄明白的代码。 import pandas as pd from bs4 import BeautifulSoup soup = BeautifulSoup(html, "html.parser") table = soup.find('table', attrs={'id':'subs noBorders

浏览 7提问于2020-09-23得票数 0

回答已采纳

1回答

获取状态代码404，即使存在页

python、html、beautifulsoup、python-requests、http-status-code-404

我尝试过用java和python来抓取这个特定的链接，但是我一直得到404状态代码，即使它存在。 import requests from bs4 import BeautifulSoup from lxml import html from collections import defaultdict url = 'https://www.slacker.com/station/pop-remix' def main(): page = requests.get(url) print(page.status_code) print() if __

浏览 0提问于2018-03-12得票数 2

回答已采纳

1回答

循环遍历PDF文件数组，并从每个文件复制文本

我看到它是超级容易抓取一个PDF文件，保存它，并从文件中获取所有的文本。 library(pdftools) download.file("http://www2.sas.com/proceedings/sugi30/085-30.pdf", "sample.pdf", mode = "wb") txt <- pdf_text("sample.pdf") 我想知道如何循环遍历PDF文件数组，基于链接，下载每个文件，并从每个文件中刮取测试。我想转到下面的链接。然后，我想下载每个文件从‘纸张085-30:’到‘纸095-30

浏览 2提问于2018-05-03得票数 0

回答已采纳

1回答

数据挖掘设备/商品网站的具体价格

r、python、data-mining

这是一个有点牵强的话题，但我发现自己经常浏览齿轮网站(如，齿轮巡逻和开箱)的生日和礼物想法。我发现点击每一篇文章寻找在我的价格范围内或在我的价格范围内的项目&&我正在寻找的项目的类别，是很麻烦的。我知道我可以去亚马逊，为我正在寻找的项目设置特定的过滤器，但我喜欢从已知的提供高质量产品推荐的网站收到建议。从数据挖掘/ web抓取的角度来看，有没有人知道任何在线教程的资源，为类似的产品提供指导？ R或Python更适合web抓取应用程序吗？如果你对我的想法有任何见解，我们将不胜感激:)

浏览 0提问于2016-05-17得票数 0

回答已采纳

7回答

使用Python下载URL中未明确引用的文档

python、url、web-crawler、bing-api

我用Python2.6编写了一个网络爬虫，使用Bing API搜索特定的文档，然后下载它们进行分类。我一直使用字符串方法和urllib.urlretrieve()来下载其URL以.pdf、.ps等结尾的结果，但当文档被“隐藏”在URL后面时，我遇到了麻烦，比如：所以，有两个问题。有没有一般的方法来判断一个URL是否有它所链接的pdf/doc等文件(例如www.domain.com/file.pdf)？有没有办法让Python抓取这个文件？编辑:感谢你的回复，其中一些建议下载文件，看看它的类型是否正确。唯一的问题是。我不知道该怎么做(参见上面的问题#2 )。urlretrieve(<

浏览 9提问于2010-10-21得票数 1

回答已采纳

2回答

网页抓取pdf链接-不返回结果

python、web-scraping

我已经设置了一些代码来从地方议会网站上抓取pdf。我已经请求了我想要的页面，然后获得了不同日期的链接，然后在其中的每个链接到pdf。但是，它不会返回任何结果。我把代码弄得乱七八糟，还是弄不明白。它在jupyter笔记本上运行正常，并且没有返回任何错误。这是我的代码： import requests from bs4 import BeautifulSoup as bs dates = ['April 2019', 'July 2019', 'December 2018'] r = requests.get('https://www.

浏览 12提问于2019-07-19得票数 0

回答已采纳

1回答

使用bs4 python抓取时，不会呈现完整的超文本标记语言

python、html、web-scraping、beautifulsoup

我正在尝试从极客那里收集数据，用于我自己的简单的抓取和分析项目。我正在使用bs4和requests - python2 我需要抓取这个url上的所有问题， ques_page = requests.get('https://practice.geeksforgeeks.org/explore/?page=1') ques_soup = BeautifulSoup(ques_page.text, 'lxml') get_ques = ques_soup.find('div', class_="panel problem-block

浏览 13提问于2019-01-02得票数 0

回答已采纳

3回答

使用BS4从隐藏的html (弹出)获取数据

python、beautifulsoup

我试图在维基百科的弹出式窗口中搜索链接的名称。所以当你在维基百科上悬停一个链接的时候，它会从这个链接的介绍中看到一个小片段。我需要搜集这些信息，但我不确定它在哪里。当我检查元素(当它弹出时)，这是html (在本例中，我在链接“希腊语”上盘旋)。 <a dir="ltr" lang="en" class="mwe-popups-extract" href="/wiki/Ancient_Greek"> <p>The <b>Ancient Greek</b> language incl

浏览 0提问于2018-07-17得票数 10

回答已采纳

1回答

使用python html错误爬行web数据

python、web、beautifulsoup、web-crawler

我想使用python爬行数据，我又试了一次，但是它没有工作，我找不到代码的错误，我编写了如下代码： import re import requests from bs4 import BeautifulSoup url='http://news.naver.com/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_week&oid=277&aid=0003773756&date=20160622&type=1&rankingSectionId=102&r

浏览 1提问于2016-06-30得票数 0

回答已采纳

1回答

BeautifulSoup抓取多个链接

python、web-scraping、beautifulsoup

我想使用BeautifulSoup抓取这个website，首先提取每个链接，然后一个接一个地打开它们。一旦他们被打开，我想刮公司的名称，它的股票代码，股票交易和提取多个PDF链接时，他们是可用的。之后，它会将它们写到csv文件中。为了实现这一点，我首先尝试这样做： import requests from bs4 import BeautifulSoup import re import time source_code = requests.get('https://www.responsibilityreports.co.uk/Companies?a=#') soup

浏览 18提问于2021-04-11得票数 0

回答已采纳

1回答

如何忽略不满足“类”条件的对象？

python、beautifulsoup

我正在尝试从页面中提取一些数据，而且我只想提取非空链接。空链接有一个名为"new“的类，我想通过这个条件过滤结果。为此，我使用以下代码： import urllib2 from bs4 import BeautifulSoup url = "http://en.wikipedia.org/wiki/Visa_requirements_for_Belarusian_citizens" page = urllib2.urlopen(url) soup = BeautifulSoup(page) visa_req_table = soup.findAll("

浏览 2提问于2014-12-23得票数 0

回答已采纳

2回答

如何下载包含python漂亮汤的类中的href (pdf)？

python、beautifulsoup

我有大约900页，每页包含10个按钮(每个按钮有pdf)。我想下载所有的pdf-程序应该浏览到所有的网页，并下载的pdfs一个一个。代码只搜索.pdf，但我的href没有.pdf page_no (1到900)。 https://bidplus.gem.gov.in/bidlists?bidlists&page_no=3 这是网站，下面是链接： BID NO: GEM/2021/B/1804626 import os import requests from urllib.parse import urljoin from bs4 import BeautifulSoup ur

浏览 1提问于2021-12-30得票数 -2

1回答

ImportError: mac上没有名为bs4的模块

python、beautifulsoup、importerror

我今晚坐下来，决定如何使用蟒蛇。受到这篇网页抓取文章的启发。cam.ly/danesblog/2011/01/craigslist-arbitrage/ 在阅读完教程之后，我： 1)下载和安装python：前3.3，然后2.7 2)下载的www.crummy.com/software/BeautifulSoup/bs4/download/ :bs4 3)遵循Brian的指示：尝试了easy_install和python setup.py安装方法。我仍然得到"ImportError:没有名为bs4的模块“ Python安装在应用程序文件夹中，bs4包自动安装在库中，这是问

浏览 1提问于2013-02-26得票数 3