首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >获取URLs的返回码python urllib

获取URLs的返回码python urllib
EN

Stack Overflow用户
提问于 2018-12-11 03:38:58
回答 1查看 75关注 0票数 0

我有一个URL列表,其中一些现在不起作用。我想解析这个列表,获得这些URL的返回码,并将它们存储在一个数据帧中。我有以下代码:

代码语言:javascript
复制
for url in df['URL'][]:
print(url)
try:
    #print(urllib2.urlopen(url).getcode())
    df['returncode']=urllib2.urlopen(url).getcode()
except:
    df['returncode']='Obsolete'
    #print('obsolete')

我得到的是一列所有“过时”的东西。

代码语言:javascript
复制
df['returncode']:
0         Obsolete
1         Obsolete
2         Obsolete
3         Obsolete
4         Obsolete
5         Obsolete
6         Obsolete
7         Obsolete
8         Obsolete
9         Obsolete
10        Obsolete
11        Obsolete

而如果我打印值,我可以看到不同的返回代码。

代码语言:javascript
复制
http://study.com/odfv.html
obsolete
http://www.meghansfashion.com/uploads/2/1/2/9/21295692/2_75_orig.png
200
http://p16.muscdn.com/img/tos-maliva-p-0068/8ab65f6aac844cdf83526b5662720be3~c5_300x400.jpeg
200
http://config.88-f.net/hb/c1/pxbfwsp
obsolete

我在这里做错了什么?

EN

回答 1

Stack Overflow用户

发布于 2018-12-11 03:50:18

您可以使用urllib2获取http响应码。你已经完成了大部分工作,你只需要正确地处理异常。urllib2在收到错误http响应时会引发异常。

代码语言:javascript
复制
import urllib2

urls = ['http://www.google.com', 'http://google.com/does-not-exist']

for url in urls:
    try:
        res = urllib2.urlopen(url)
        code = res.getcode()
    except urllib2.HTTPError as err:
        code = err.getcode()

    print('{}: {}'.format(url, code))

这将输出:

代码语言:javascript
复制
http://www.google.com: 200
http://google.com/does-not-exist: 404
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53712484

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档