我有一个URL列表,其中一些现在不起作用。我想解析这个列表,获得这些URL的返回码,并将它们存储在一个数据帧中。我有以下代码:
for url in df['URL'][]:
print(url)
try:
#print(urllib2.urlopen(url).getcode())
df['returncode']=urllib2.urlopen(url).getcode()
except:
df['returncode']='Obsolete'
#print('obsolete')
我得到的是一列所有“过时”的东西。
df['returncode']:
0 Obsolete
1 Obsolete
2 Obsolete
3 Obsolete
4 Obsolete
5 Obsolete
6 Obsolete
7 Obsolete
8 Obsolete
9 Obsolete
10 Obsolete
11 Obsolete
而如果我打印值,我可以看到不同的返回代码。
http://study.com/odfv.html
obsolete
http://www.meghansfashion.com/uploads/2/1/2/9/21295692/2_75_orig.png
200
http://p16.muscdn.com/img/tos-maliva-p-0068/8ab65f6aac844cdf83526b5662720be3~c5_300x400.jpeg
200
http://config.88-f.net/hb/c1/pxbfwsp
obsolete
我在这里做错了什么?
发布于 2018-12-11 03:50:18
您可以使用urllib2
获取http响应码。你已经完成了大部分工作,你只需要正确地处理异常。urllib2
在收到错误http响应时会引发异常。
import urllib2
urls = ['http://www.google.com', 'http://google.com/does-not-exist']
for url in urls:
try:
res = urllib2.urlopen(url)
code = res.getcode()
except urllib2.HTTPError as err:
code = err.getcode()
print('{}: {}'.format(url, code))
这将输出:
http://www.google.com: 200
http://google.com/does-not-exist: 404
https://stackoverflow.com/questions/53712484
复制相似问题