文章/答案/技术大牛

发布

社区首页 >问答首页 >使用python实现Web数据的抓取

问使用python实现Web数据的抓取
EN

Stack Overflow用户

提问于 2015-11-04 16:37:38

回答 1查看 367关注 0票数 0

我刚刚开始学习使用Python进行网络抓取。我的目标是从http://money.rediff.com/companies/Bajaj-Auto-Ltd/10540026网站上为Bajaj汽车有限公司收集实时新闻。

问题是:我无法提取内容(即新闻)。

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'http://money.rediff.com/companies/Bajaj-Auto-Ltd/10540026'
data = urlopen(url)
soup = BeautifulSoup(data)

te=soup.find('a',attrs={'target':'_jbpinter'})
lis=te.find_all_next('a',attrs={'target':'_jbpinter'})
#print(lis)

for li in lis:
    print(li.find('a').contents[0])

我得到了错误"AttributeError：'NoneType‘对象没有属性'contents'“，也没有得到想要的结果。

如有任何意见，将不胜感激。

python

web-scraping

beautifulsoup

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-11-04 16:52:11

您正在尝试两次获取a标记。

替换

for li in lis:
    print(li.find('a').contents[0])

使用

for li in lis:
    print(li.get_text())

你得到了这个输出：

Need Different Rates For Different Products: Rahul Bajaj on GST
Reforms irrespective of Bihar results: Bajaj
Auto shares in focus; Tata Motors up over 5%
We believe new Avenger will stimulate the market: Bajaj Auto's Eric Vas
BHP Billiton pins future of Indonesian coal mine on new...

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33527206

复制

相似问题

问使用python实现Web数据的抓取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python实现Web数据的抓取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python实现Web数据的抓取
EN