如何使用Python计算网页(url)的大小?我尝试了urllib2并抓取了content-length报头,但它不存在。
import urllib2
url = 'http://www.google.com/'
r = urllib2.urlopen(url)
#Not sure what to do from here
我有一个urls列表,我使用python3中的urllib,使用以下代码从网站抓取图像。
i=0
all_image_links=[]
r=requests.get(urllink)
data=r.text
soup=BeautifulSoup(data,"lxml")
name=soup.find('title')
name=name.text
for link in soup.find_all('img'):
image_link=link.get('src')
final_link=urllink+image
在我的python应用程序中,我必须读取许多网页来收集数据。为了减少http调用,我只想获取更改过的页面。我的问题是,我的代码总是告诉我页面已经更改(代码200),但实际上并非如此。
这是我的代码:
from models import mytab
import re
import urllib2
from wsgiref.handlers import format_date_time
from datetime import datetime
from time import mktime
def url_change():
urls = mytab.objects.all()
我正在使用这个脚本从sciencedirect文章中抓取作者信息,但是当我试图打印这个值时,我没有得到任何信息。
import requests
from bs4 import BeautifulSoup
from urllib import urlopen
import csv
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
with open('urls.txt') as inf:
urls = (line.strip() for line in inf)
for url in
我正在使用模块谷歌搜索网络抓取,但我得到了这个错误429。我再次尝试卸载和安装模块,但没有帮助。所以我的下一个想法是删除cookie,但我不知道如何删除。你能帮帮我吗?
query = 'site:https://stackoverflow.com urllib.error.HTTPError: HTTP Error 429: Too Many Requests'
search_query = search(query=query, stop=10)
for url in search_query:
print(url)
代码的基本知识如下所示。事实上,我知道如何检索这些页面是为了其他URL,因为我刚刚编写了一个脚本,以同样的方式抓取另一个页面。但是,对于这个特定的URL,它一直在我的脸上抛出"urllib.error.HTTPError: HTTP 404: Not“。我用一个不同的URL ()替换了URL,它运行得非常好。我对python非常陌生,所以也许我还没有找到一个非常基本的步骤或知识,但我在网上找到的与此相关的资源似乎并不相关。任何建议都会很好,谢谢。
下面是脚本的基本内容:
import bs4
from urllib.request import urlopen as uReq
from
我需要一个提示如何从网站抓取数据。我是网络抓取的新手。特别的是,我无法访问该网站,因为它在另一个网络上本地运行。对于开发,我只有一个html文件的网站。知道我的问题是我在下面的代码中得到了一个错误。我认为这个问题很简单,但到目前为止我还没有想法。
import requests
import urllib.request
import time
from bs4 import BeautifulSoup
url = 'file:///tmp/mozilla/LiveData.html' # file is locally so far
response = requests.
我有一个由heroku托管的网络抓取应用程序,我用它来抓取大约40个公司网页。其中的27个几乎总是在heroku上给我403个错误,但是如果我在本地运行代码,每个页面都工作得很好。
在运行应用程序大约25分钟后,收到403个错误(时间范围变化很大),所有页面都神奇地开始工作,但如果应用程序重新启动,将再次返回403秒。
我如何才能完全避免这403错误的发生呢?相关代码如下:
from bs4 import BeautifulSoup as soup
import urllib.request as ureq
from urllib.error import HTTPError
import t
我正在尝试从一个看起来像是ajax网页的地方抓取数据。数据自动每秒钟刷新一次。
我似乎无法确定是选择正确的下拉列表,还是将页面更改为我需要的数据。
谢谢
!/usr/bin/env python
import mechanize
from bs4 import BeautifulSoup
import re
import urllib2
#import html2text
import time
# Set credentials
venue = "sp" # Manchester (ma), Milton Keynes (mk), Sandown Park (sp), T
我正在尝试使用urllib2、BeautifulSoup和Python2.7解析网页。
问题在上游:每次我尝试检索一个新的网页,我都会得到一个我已经检索到的网页。但是,在我的see浏览器中,页面是不同的:参见和。在页码上的循环有问题吗?
下面是一个代码示例:
def main(page_number_max):
import urllib2 as ul
from BeautifulSoup import BeautifulSoup as bs
base_url = 'http://www.senscritique.com/clement/collection/
编辑:在做了很多修改之后,urlgrabber似乎在urllib2失败的地方成功了,即使在每个文件之后告诉它关闭连接时也是如此。urllib2处理代理的方式可能有问题,或者我使用代理的方式有问题!无论如何,下面是在循环中检索文件的最简单代码:
import urlgrabber
for i in range(1, 100):
url = "http://www.iana.org/domains/example/"
urlgrabber.urlgrab(url, proxies={'http':'http://<user>:&