not抓取未检索整个文档urllib或请求 - 腾讯云开发者社区

python

如何使用Python计算网页(url)的大小？我尝试了urllib2并抓取了content-length报头，但它不存在。 import urllib2 url = 'http://www.google.com/' r = urllib2.urlopen(url) #Not sure what to do from here

浏览 3提问于2009-10-23得票数 2

回答已采纳

1回答

忽略重定向的Python检索文件

python、beautifulsoup、urllib

我正在开发一个程序，它使用Beautiful Soup来抓取网站，然后使用urllib来检索在网站上找到的图像(使用图像的直接URL)。我正在抓取的网站不是图像的原始主机，但确实链接到原始图像。我遇到的问题是，对于某些网站，检索www.example.com/images/foobar.jpg会将我重定向到主页www.example.com，并生成一个空的(0KB)图像。事实上，转到www.example.com/images/foobar.jpg也会重定向。在我正在抓取的网站上很有趣，图像显示正常。我在SO上见过一些例子，但它们都解释了如何在绕过重定向时从网站捕获cookie、头文件和其他

浏览 0提问于2014-03-15得票数 0

1回答

Python WebCrawling urllib.error.URLError：<urlopen错误名称resolution>中的临时故障

python、web-crawler、urllib

我正在从网络上抓取一些数据，而且由于我应该获得的数据是巨大的，我已经获得了超过500个同时请求(通过urllib.request.urlopen(url)通过multiprocessing池进行的)。这里的问题是引发了以下错误： urllib.error.URLError: urlopen错误名称解析中的临时失败经过一些研究后，我发现这个问题是由这样一个事实造成的:当有太多的请求时，不能关闭连接。但还没有找到解决这个问题的方法。应该将同时连接限制在某个安全范围内，还是更改urllib请求配置？发展环境： Ubuntu 16.04 Python 3.6

浏览 0提问于2018-04-08得票数 3

4回答

如何使用Python登录Facebook/Myspace并抓取内容？

python、authentication、session、post、web-crawler

现在，我可以使用urllib2抓取常规页面。 request = urllib2.Request('http://stackoverflow.com') request.add_header('User-Agent',random.choice(agents)) response = urllib2.urlopen(request) htmlSource = response.read() print htmlSource 然而……我想模拟一个帖子(或假会话)？这样我就可以在Facebook上爬虫了。我该怎么做？

浏览 0提问于2009-10-14得票数 4

回答已采纳

1回答

在python 3中使用urllib抓取图像时出现HTTP错误

python-3.x、urllib

我有一个urls列表，我使用python3中的urllib，使用以下代码从网站抓取图像。 i=0 all_image_links=[] r=requests.get(urllink) data=r.text soup=BeautifulSoup(data,"lxml") name=soup.find('title') name=name.text for link in soup.find_all('img'): image_link=link.get('src') final_link=urllink+image

浏览 0提问于2018-06-06得票数 0

1回答

XPATH -如何提取每个html元素中的文本，而不考虑类

xpath

我正在尝试从没有统一结构的网页中抓取一些内容。我想要做的是告诉XPATH按照它看到的顺序抓取html标记中的任何内容并返回结果，而不必指定div名称等，因为它们是不同的，也不是非常统一。所以我需要知道如何说“按照在标签中找到的顺序返回任何html内容，不管它们是classes、em、强标签等等。我使用XPATH的唯一经验就是指定实际的div名称，例如： //div[@id='tab_info']

浏览 1提问于2017-07-29得票数 0

2回答

检测网页是否已更改

python、web、screen-scraping、if-modified-since

在我的python应用程序中，我必须读取许多网页来收集数据。为了减少http调用，我只想获取更改过的页面。我的问题是，我的代码总是告诉我页面已经更改(代码200)，但实际上并非如此。这是我的代码： from models import mytab import re import urllib2 from wsgiref.handlers import format_date_time from datetime import datetime from time import mktime def url_change(): urls = mytab.objects.all()

浏览 3提问于2013-03-05得票数 8

回答已采纳

1回答

读取和缓存用于django模板的html片段

django

我需要从一个外部网站抓取四个html片段，并在我的django站点的页眉和页脚中显示它们。我肯定需要将这些缓存一段时间。我最初的想法是使用urllib2读取http，然后将文件的html写入我的服务器。通过Django上下文处理器实现，该代码检查这四个文件的时间戳，并在必要时检索更新的版本，然后将它们读取到模板变量中。我似乎正在为四个文件中的一个设置Django的模板变量大小。这迫使我使用readline()，并将该文件作为数组传递给模板。有没有更好的方法从外部站点检索四个html片段，缓存它们并将它们传递给我的模板？下面是我的base.html模板现在的样子： {{ integrat

浏览 0提问于2011-08-23得票数 2

回答已采纳

1回答

从电子商务平台的搜索结果中抓取Nodejs web

node.js、puppeteer、jsdom

我正在学习从电子商务平台(Ebay等)上抓取搜索结果。和nodeJS在一起。我面临的问题是，在这些平台中有赞助产品；这样这些赞助项目将与其他非赞助但与关键字相关的项目一起出现在搜索结果页面中。当我使用Postman检查负责搜索结果的接口时，似乎只能从调用的接口中检索到non-sponsored but relevant items。因此，在这种情况下，简单地调用API是不可行的，因为我还想刮掉那些赞助项目。请问:使用nodeJS如何抓取搜索结果页面中出现的赞助和非赞助项目？我正在考虑使用某些包，如jsdom或puppeteer，请问我的想法是否在正确的轨道上？非常感谢！

浏览 10提问于2020-10-19得票数 0

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

python、web-scraping

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页吗？谢谢。

浏览 0提问于2014-12-29得票数 0

回答已采纳

1回答

使用会话cookie的Python scrapy登录

python、cookies、web-scraping、scrapy

我试着在认证后从网站上抓取。我能够从经过身份验证的浏览器会话中获取JSESSIONID，并使用urlopener下载正确的页面，如下所示。 import cookielib, urllib2 cj = cookielib.CookieJar() c1 = cookielib.Cookie(None, "JSESSIONID", SESSIONID, None, None, DOMAIN, True, False, "/store",True, False, None, False, None, None, None) cj.set_cookie

浏览 2提问于2013-11-29得票数 4

1回答

使用python漂亮汤进行web抓取但没有得到价值

python、web-scraping、beautifulsoup

我正在使用这个脚本从sciencedirect文章中抓取作者信息，但是当我试图打印这个值时，我没有得到任何信息。 import requests from bs4 import BeautifulSoup from urllib import urlopen import csv import sys reload(sys) sys.setdefaultencoding('utf-8') with open('urls.txt') as inf: urls = (line.strip() for line in inf) for url in

浏览 0提问于2018-12-07得票数 1

回答已采纳

2回答

HTTP错误429太多请求-删除cookie

python、google-search

我正在使用模块谷歌搜索网络抓取，但我得到了这个错误429。我再次尝试卸载和安装模块，但没有帮助。所以我的下一个想法是删除cookie，但我不知道如何删除。你能帮帮我吗？ query = 'site:https://stackoverflow.com urllib.error.HTTPError: HTTP Error 429: Too Many Requests' search_query = search(query=query, stop=10) for url in search_query: print(url)

浏览 7提问于2020-02-11得票数 1

回答已采纳

2回答

Unicode编码错误: Charmap无法在Python中编码字符\xa9

python、python-3.x、web-scraping、decode、html-encode

嗨，我正在写抓取代码，但当我试图从网站获取所有段落时，它给我以下错误Unicode Encode错误: Charmap无法编码字符'\xa9‘ 下面是我的代码： #Loading Libraries import urllib from urllib.parse import urlparse from urllib.parse import urljoin import urllib.request from bs4 import BeautifulSoup #define URL for scraping newsurl = "http://www.techspot.

浏览 0提问于2017-01-20得票数 0

1回答

urllib2.HTTPError: HTTP错误404:找不到有效url

python、python-2.7、urllib2、facebook-opengraph

我正在使用python opengraph库来解析网站的opengraph标签。 import opengraph url = 'http://www.foxnews.com/world/2014/10/20/uk-gun-owners-now-subject-to-warrantless-home-searches/' og = opengraph.OpenGraph(url=url) print og.to_json() 当我运行这个脚本时，我得到了以下错误 Traceback (most recent call last): File "test.py"

浏览 0提问于2014-10-27得票数 0

回答已采纳

1回答

使用python 3 HTTP代码错误进行Web抓取

python、http、urllib

所以我对编码非常陌生，我只是在学习web抓取。我不知道该怎么做，这可能是最基本的东西。但还是不确定我在这里做错了什么，这对你们中的一些人来说可能是一个非常简单的解决方案。任何帮助都会得到极大的重视 from urllib.request import urlopen as uReq dcgp_url = "http://news.formulad.com/" uClient = uReq(dcgp_url) page_html = uClient.read uClient.close() 然后它向我显示了这个错误： C:\Users\mateu\AppData\Local

浏览 0提问于2020-04-17得票数 0

2回答

python urllib库中的geturl()不起作用

python、web-scraping、urllib、urllib2、geturl

我正在使用urllib来构建一个简单的web抓取器，并且需要知道url在使用urlopen方法打开后是否会重定向。我在response对象上调用geturl()方法，但获取的是原始url，而不是重定向的url。有什么办法可以让我重定向的吗？ response = urlopen("https://en.wikipedia.org/wiki/" + url, context=ctx) final_url = response.geturl()[30:] print("url:", url)

浏览 29提问于2020-07-29得票数 0

1回答

使用分页从GEO DataSets获取搜索结果的url链接

php、python、pagination、beautifulsoup、scrapy

我想从这个搜索结果页面获得每篇文章的所有链接：但是我在获取下一页的网址时遇到了问题。来自<div class="pagination">，它说： <a name="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page" title="Next page of results" class="active page_link next" href="#" sid="3" page="2" acces

浏览 0提问于2017-10-05得票数 0

1回答

使用Python3从JS生成的内容中抓取数据

web-scraping、python-3.5

我需要从一个python3程序中抓取一个网站(比如"www.example.com")，这个程序有一个包含以下两个元素的表单： 1: Textbox 2: Dropdown 需要在上面的表单中使用多个选项(例如'abc‘和'1')来运行查询，以填充/选择这些选项，并抓取由此生成的页面。因此，在填写表单和提交之后生成的页面具有在浏览器中可见的url，该页面上的.The结果通过javacript来获取，如可以在页面源中验证的那样。下面是相关javascript的概要： <script type="text/rfetchscript"&g

浏览 1提问于2016-10-28得票数 0

1回答

. urllib2

python、web-scraping、urllib2、python-requests、partial

我多次使用请求库，我知道它有很多优点。然而，我试图检索以下维基百科页面： requests.get部分检索它： response = requests.get('https://en.wikipedia.org/wiki/Talk:Land_value_tax', verify=False) html = response.text 我使用urllib2和urllib2.urlopen尝试它，它完全检索相同的页面： html = urllib2.urlopen('https://en.wikipedia.org/wiki/Talk:Land_value_tax'

浏览 5提问于2015-05-05得票数 3

2回答

urllib.request上的Python404‘ing

python、web-scraping

代码的基本知识如下所示。事实上，我知道如何检索这些页面是为了其他URL，因为我刚刚编写了一个脚本，以同样的方式抓取另一个页面。但是，对于这个特定的URL，它一直在我的脸上抛出"urllib.error.HTTPError: HTTP 404: Not“。我用一个不同的URL ()替换了URL，它运行得非常好。我对python非常陌生，所以也许我还没有找到一个非常基本的步骤或知识，但我在网上找到的与此相关的资源似乎并不相关。任何建议都会很好，谢谢。下面是脚本的基本内容： import bs4 from urllib.request import urlopen as uReq from

浏览 1提问于2018-09-18得票数 0

回答已采纳

2回答

使用Python3.x提交具有onSubmit="return func();“的表单

javascript、python、html、python-3.x

我在python上的第二天，试着学习网络抓取。我在网页中有一个表单，我正试图从其中删除数据 <form name="search" method="POST" action="index.php" onSubmit="return Search();"> url自动帮助填写搜索参数，但由于表单使用onSubmit()，我不知道如何使用python提交它。以前，我只是使用urllib.request来完成所有的工作。

浏览 2提问于2016-03-20得票数 1

1回答

使用Urllib下载Python3.5的Zip文件夹

python、python-3.5、urllib、zip

我正在使用urllib和python3.5从一个网站下载一个zip文件夹列表。Urllib.request.urlretrieve文档表示您可以检索文件，但不能检索压缩文件夹。下面是url：的一个示例。大多数示例显示对新文件的读/写，因为该文件夹有五个文件，因此对上面的url不起作用。任何帮助都将不胜感激！

浏览 0提问于2018-12-01得票数 0

回答已采纳

2回答

如何在应用程序引擎应用程序中请求本地url？

python、json、google-app-engine、url、blob

我使用Blobs为我的应用程序存储json文件。我试图实现的是请求我的应用程序的内部url，以便获得相关文件。我尝试过urllib，urllib2，urlfetch，但每次我都得到一个5秒的DeadlineExceededError: 5 timed out错误。有没有办法在我的get请求中检索我的blob，或者是检索我的数据的替代方案？

浏览 3提问于2012-01-19得票数 1

回答已采纳

2回答

如何使用python从本地网站抓取数据

python、web-scraping、beautifulsoup、get

我需要一个提示如何从网站抓取数据。我是网络抓取的新手。特别的是，我无法访问该网站，因为它在另一个网络上本地运行。对于开发，我只有一个html文件的网站。知道我的问题是我在下面的代码中得到了一个错误。我认为这个问题很简单，但到目前为止我还没有想法。 import requests import urllib.request import time from bs4 import BeautifulSoup url = 'file:///tmp/mozilla/LiveData.html' # file is locally so far response = requests.

浏览 3提问于2019-07-30得票数 1

2回答

Heroku web抓取应用程序(通常但不总是)在大多数网站上都会出现403错误

python-3.x、heroku、web-scraping、http-status-code-403

我有一个由heroku托管的网络抓取应用程序，我用它来抓取大约40个公司网页。其中的27个几乎总是在heroku上给我403个错误，但是如果我在本地运行代码，每个页面都工作得很好。在运行应用程序大约25分钟后，收到403个错误(时间范围变化很大)，所有页面都神奇地开始工作，但如果应用程序重新启动，将再次返回403秒。我如何才能完全避免这403错误的发生呢？相关代码如下： from bs4 import BeautifulSoup as soup import urllib.request as ureq from urllib.error import HTTPError import t

浏览 17提问于2020-02-16得票数 2

1回答

使用python从Yahoo Finance上的csv中抓取选定的列

python、csv、web-scraping、yahoo-finance

我正在尝试从雅虎财经数据中抓取精选的列。我能够以csv格式抓取整个数据，但我很想知道如何只抓取选定的列，而不是整个csv数据。我尝试使用split方法将字符串数据转换为list，然后仅访问list中所需的列，但它不能正常工作。 import urllib2 listOfStocks = ["AAPL", "MSFT", "GOOG", "FB", "AMZN"] urls = [] for company in listOfStocks: urls.append('http://real-ch

浏览 0提问于2015-11-01得票数 0

3回答

Python 2to3不工作

python、python-3.x、python-2to3

我目前正在经历python挑战，我已经达到了4级，我只学习了几个月的python，到目前为止，我正在尝试通过2.x学习Python3，除了当我使用这段代码时，以下是Python2.x版本： import urllib, re prefix = "http://www.pythonchallenge.com/pc/def/linkedlist.php?nothing=" findnothing = re.compile(r"nothing is (\d+)").search nothing = '12345' while True: tex

浏览 0提问于2012-02-26得票数 3

回答已采纳

1回答

使用REST从python中读取未打开的邮件

python、rest、exchangewebservices、office365

如何使用REST请求从python (v2.6)中的office365获得所有未打开的邮件(元数据和内容，包括附件)？注释的页面值正在返回urllib2.HTTPError: HTTP Error 400: Bad ，而未注释的页面值工作正常。谢谢! import urllib import urllib2 #page = 'https://outlook.office365.com/ews/odata/Me/Inbox/Messages?$filter=IsRead' page = 'https://outlook.office365.com/ews/odata/M

浏览 0提问于2014-06-05得票数 0

回答已采纳

1回答

Steam /scraper脚本没有生成所有请求的信息？

python、html、web-scraping、web-crawler、steam

我目前使用的是一个蒸汽爬虫()脚本，它基于带有游戏ID的数据集，能够抓取蒸汽评论数据(日期、评论文本、用户ID等)。我不是HTML抓取方面的专家，但根据我从代码(即下面的代码)中所理解的，脚本正在为给定的游戏ID循环以收集所有评论，直到它遇到这种特定的情况endre = re.compile(r'({"success":2})|(no_more_reviews)')。 import argparse import csv import os import re import socket import string import urllib import ur

浏览 0提问于2020-12-30得票数 1

4回答

urllib2未检索整个HTTP响应

python、http、urllib2

我很困惑为什么我不能使用从下载一些JSON响应的全部内容。 >>> import urllib2 >>> stream = urllib2.urlopen('http://friendfeed.com/api/room/the-life-scientists/profile?format=json') >>> stream.headers['content-length'] '168928' >>> data = stream.read() >>> len(

浏览 1提问于2009-12-01得票数 12

回答已采纳

1回答

通过Twilio检索SMS/MMS的交付步骤

rest、twilio、twilio-api

是否可以通过Twilio检索传递步骤(就像您在Message上看到的消息详细信息一样)？如果不可能通过REST，是否有编程方法来获得它(除了屏幕抓取之外)？我正在使用C# Twilio NuGet包，但如果有必要，我也可以直接访问REST。无论是在文档中还是通过直观地检查JSON结果，我都没有看到交付步骤。我也无法在CSV导出中获得交付步骤。

浏览 2提问于2016-11-29得票数 1

回答已采纳

1回答

用巨蟒选择下拉，美美的汤和机械化

python、beautifulsoup、mechanize

我正在尝试从一个看起来像是ajax网页的地方抓取数据。数据自动每秒钟刷新一次。我似乎无法确定是选择正确的下拉列表，还是将页面更改为我需要的数据。谢谢 !/usr/bin/env python import mechanize from bs4 import BeautifulSoup import re import urllib2 #import html2text import time # Set credentials venue = "sp" # Manchester (ma), Milton Keynes (mk), Sandown Park (sp), T

浏览 3提问于2016-10-25得票数 1

回答已采纳

3回答

urllib2 HTTP错误429

python、urllib2、reddit、http-status-code-429

所以我有一个子编辑的列表，我使用urllib打开它们。当我阅读它们时，urllib最终失败了： urllib2.HTTPError: HTTP Error 429: Unknown 在进行一些研究时，我发现reddit通过IP限制将请求装载到服务器上：每两秒钟只提出一次请求。有一些突发的请求，但保持理智。一般情况下，请立即保持不超过30次请求。因此，我想我应该使用time.sleep()将我的请求限制为每10秒一页。结果也同样失败了。上面的引号是从页面抓取的。我不使用reddit API。现在我在想两件事。这个限制要么只适用于reddit API，要么urllib也有限制。有人

浏览 5提问于2012-11-03得票数 10

回答已采纳

1回答

python请求从浏览器或urllib返回不同的网页

python、python-requests、urllib

我使用请求来抓取网页上的一些内容。当我使用 import requests requests.get('example.org') 我得到的页面与我使用浏览器或 import urllib.request urllib.request.urlopen('example.org') 我试过使用urllib，但它真的很慢。在我做的对比测试中，它比requests慢了50%！你怎么解决这个问题？？

浏览 0提问于2017-04-09得票数 3

2回答

Python漂亮的汤在表格上迭代

python、beautifulsoup

我正在尝试将表数据抓取到CSV文件中。不幸的是，我遇到了一个障碍，下面的代码只是在所有后续TR中重复第一个TR中的TD。 import urllib.request from bs4 import BeautifulSoup f = open('out.txt','w') url = "http://www.international.gc.ca/about-a_propos/atip-aiprp/reports-rapports/2012/02-atip_aiprp.aspx" page = urllib.request.urlopen(u

浏览 1提问于2012-04-25得票数 22

回答已采纳

3回答

优化此Python代码- webscraping并将结果输出到CSV文件

python、csv、web-scraping、beautifulsoup

我正试着从几千页中抓取数据。我的代码可以工作大约100页，但随后会大大减慢速度。我非常肯定，我的类似泰山的代码可以得到改进，这样网络抓取过程的速度就会提高。任何帮助都将不胜感激。蒂娅！以下是简化的代码： csvfile=open('test.csv', 'w', encoding='cp850', errors='replace') writer=csv.writer(csvfile) list_url= ["http://www.randomsite.com"] i=1 for url in list_ur

浏览 4提问于2016-07-06得票数 0

回答已采纳

1回答

使用urllib检索所有标头数据

python、http-headers、urllib

我浏览过很多网站，经常想知道为什么Firebug中显示的响应头和urllib.urlopen(url).info()返回的响应头经常不同，因为Firebug报告了更多的响应头。我今天遇到了一个有趣的问题。我正在抓取一个网站，在重定向到最后一个页面之前，我使用了一个完全加载(返回200状态代码)的“搜索url”。执行抓取的最简单方法是返回Location响应头并发出另一个请求。但是，当我运行'urllib.urlopen(url).info()时，这个特定的头就不存在了。不同之处在于： Firebug标头： Cache-Control : no-store, no-cache, mu

浏览 0提问于2012-10-06得票数 3

回答已采纳

4回答

检索部分网页

php、curl、web-scraping、wget、fopen

有没有办法限制CURL将获取的数据量？我在屏幕上从一个50kb的页面上抓取数据，但是我需要的数据位于页面的前1/4，所以我只需要检索页面的前10kb。我之所以问这个问题，是因为我需要监控大量数据，这导致我每个月要传输近60 5GB的数据，而这些带宽中只有5 5GB是相关的。我使用PHP处理数据，但是我在数据检索方法上很灵活，我可以使用CURL，WGET，fopen等。我正在考虑的一种方法是 $fp = fopen("http://www.website.com","r"); fseek($fp,5000); $data_to_parse = fread($

浏览 0提问于2009-10-08得票数 3

回答已采纳

3回答

python中的web抓取

python、web-scraping

我想使用python从中抓取所有的62000个名字。我正在尝试使用beautifulsoup4库。但是，它只是不起作用。到目前为止，这是我的代码： import urllib2, re from bs4 import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://www.thepetitionsite.com/104/781/496/ban-pesticides-used-to-kill-tigers/index.html').read()) divs = soup.findAll(&#

浏览 6提问于2013-07-26得票数 0

回答已采纳

5回答

如何使用Python将数据输入到网页以抓取结果输出？

python、scrape

我熟悉从网页抓取数据的BeautifulSoup和urllib2。但是，如果在返回我想要抓取的结果之前需要在页面中输入一个参数，该怎么办？我正在尝试使用这个网站获取两个地址之间的地理距离：我希望能够转到页面，输入两个地址，单击“显示”，然后提取“按乌鸦飞的距离”和“按陆路运输的距离”值，并将它们保存到字典中。有没有办法用Python把数据输入到网页中？

浏览 2提问于2011-08-13得票数 8

回答已采纳

2回答

如何在抓取web的同时创建日志文件(Python 3)？

python、python-3.x、logging、web-scraping、web-crawler

我刚接触Python，我发现在python中理解日志的整个概念真的很难。我目前正在使用Python3做这个web抓取项目。我使用了BeautifulSoup4来帮助我:下面是我写的代码： from bs4 import BeautifulSoup import urllib3 import urllib.request web = "https://docs.python.org/3/howto/logging-cookbook.html" page = urllib.request.urlopen(web) soup = BeautifulSoup(page)

浏览 0提问于2017-04-22得票数 1

1回答

Python / urllib2 socket.error：[Errno 104]由对等方重置连接

python、sockets、python-requests、urllib2

我有以下代码： import requests requests.get('URL WITH PARAMS HERE', auth=('MY USERNAME', 'MY PASSWORD')) 它用于命中API，但它返回以下错误："socket.error: Errno 104连接由对等方重置“ 我可以使用我的浏览器检索结果。我也能够cURL它并得到结果。在使用urllib2时也会出现同样的问题，但是由于某种原因，pycurl似乎会检索结果。是否有任何解决办法使其发挥作用，或对问题有任何想法？

浏览 3提问于2016-03-07得票数 0

回答已采纳

1回答

无法检索链接和子链接

python、elasticsearch、web-scraping、beautifulsoup

我是新的python和美丽的汤，需要网络抓取所有的链接索引它在弹性搜索，我使用以下代码来获得所有的链接/内的信息页面的子链接，但无法检索它。 from bs4 import BeautifulSoup try: import urllib.request as urllib2 except ImportError: import urllib2 urlFile = urllib2.urlopen("http://pubs.vmware.com/sddc-mgr-12/index.jsp#com.vmware.evosddc.via.doc_211/GUID-

浏览 8提问于2017-02-28得票数 0

2回答

urlopen总是检索相同的网页

python、python-2.7、beautifulsoup、urllib2、urlopen

我正在尝试使用urllib2、BeautifulSoup和Python2.7解析网页。问题在上游:每次我尝试检索一个新的网页，我都会得到一个我已经检索到的网页。但是，在我的see浏览器中，页面是不同的:参见和。在页码上的循环有问题吗？下面是一个代码示例： def main(page_number_max): import urllib2 as ul from BeautifulSoup import BeautifulSoup as bs base_url = 'http://www.senscritique.com/clement/collection/

浏览 1提问于2012-07-08得票数 0

回答已采纳

1回答

使用urllib和BeautifulSoup时出现随机HTTP503错误

python、web-scraping、beautifulsoup、urllib2、urllib

我在用曲奇抓取一个网站。它们提供了多个下拉菜单，我正在迭代每个选项，并在每次请求时重新捕获会话cookie。代码在一段时间内运行得很好，但我随机得到了一个503错误。我的代码将数据插入到PostgreSQL数据库中，为了帮助强调这个错误的随机性，我想分享我在插入少至1200个条目(行)和多至4200个条目后收到的503。似乎没有任何引发this异常的模式。我不明白它的意思。如果有帮助，下面是我的代码的一部分： # -*- coding: utf-8 -*- import scrape_tools import psycopg2 import psycopg2.extras import

浏览 0提问于2012-11-03得票数 3

回答已采纳

2回答

urlib2.urlopen通过代理在几次调用后失败

python、authentication、proxy、urllib2、urlopen

编辑:在做了很多修改之后，urlgrabber似乎在urllib2失败的地方成功了，即使在每个文件之后告诉它关闭连接时也是如此。urllib2处理代理的方式可能有问题，或者我使用代理的方式有问题！无论如何，下面是在循环中检索文件的最简单代码： import urlgrabber for i in range(1, 100): url = "http://www.iana.org/domains/example/" urlgrabber.urlgrab(url, proxies={'http':'http://<user>:&

浏览 7提问于2011-02-25得票数 4

回答已采纳

1回答

为公司详细信息刮取数据

python、web-scraping

我试图刮刮公司名称，邮政编码，电话号码和网页地址：发现很困难，因为信息只有在点击页面上的区域时才能检索到。如果有人能帮忙的话，我会非常感激的。对于Python来说都是非常新的，特别是抓取！ !pip install beautifulsoup4 !pip install urllib3 from bs4 import BeautifulSoup from urllib.request import urlopen url = "https://www.matki.co.uk/matki-dealers/" page = urlopen(url) html = page.re

浏览 6提问于2022-08-22得票数 0

2回答

如何使用Python从该站点抓取所有数据

python、python-3.x、web-scraping、beautifulsoup

我对网络抓取还是个新手。我想从中抓取数据，主要是右边的数据，其中有国家的年份、国家和国内生产总值。我的代码如下： from urllib.request import urlopen from bs4 import BeautifulSoup data = "http://databank.worldbank.org/data/reports.aspx?source=2&series=NY.GDP.MKTP.CD&country=#" page = urlopen(data) soup = BeautifulSoup(page,'html.parse

浏览 28提问于2017-02-13得票数 0

1回答

从网站中提取表格

python、html、parsing、beautifulsoup、urllib2

我已经多次尝试检索这个网站上的表格： (“历史参与”下的那个) import urllib2 from bs4 import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://www.whoscored.com/Players/845/').read()) 这是我用来检索表html的Python代码，但是我得到了一个空字符串。帮帮我！

浏览 1提问于2015-03-31得票数 1

回答已采纳