Day02_python数据分析入门

文章来源：企鹅号 - 玫瑰黑客

Day02_python数据分析入门

（本系列所有开发环境均默认为Mac）

鄙人在IT公司做过java后台开发，深感疲惫，但也充实。不过结束之后回想，这种充实在某种程度上是个假像，因为做后台开发太多的重复劳动，把别人造好的轮子略作修改就成自己的了。据说90%的程序员到35岁后都要转行，而一旦届时转行，前期的IT积累几乎为零，因为技术变革异常飞速，传统开发在人工智能的兴起下正愈发岌岌可危。相比之下，金融业却一直是各行各业的顶端，那些出入写字楼的金融精英，视金钱为数字的人，他们才能永葆行业青春，一直笑傲于世界之巅。

要做金融，必须学会数据分析，本文将讲述最简单的Python爬取网页信息。

1，下载anaconda，让anaconda接管你的一切python事务。Anaconda是南美洲的一种蟒蛇，可谓管理Python的一条Python。它提供了包管理和环境管理功能。

2，使用anaconda中的Jupyter作为Python编译器来跑程序。在iTerm中输入jupternotebook按回车。

3，编写获取网页HTML的代码。首先Importrequest.把Python的request包导入，然后使用request.get(link, headers = headers)获取网页。其中Link就是你要爬取的网页地址，headers则是HTTP请求和响应的核心，它承载了关于客户端浏览器、请求页面、服务器等相关信息。使用chrome浏览器，在网页任意地方右键菜单点击审查元素打开chrome自带的调试工具，选择Network标签，刷新网页，刷新后在左边找到该网页url，点击后右边选择headers就可以看到当前网页的header了。

4，代码如下：

importrequests

headers ={'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6)Gecko/20091201 Firefox/3.5.6'}

r =requests.get(link, headers= headers)

print (r.text)

r是requests的Response回复对象，我们从中可以获取我们想要的信息。r.text是获取的网页内容代码。

5，from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup

soup=BeautifulSoup(r.text,"lxml")#使用BeautifulSoup解析这段代码

title=soup.find("h1",class_="post-title").a.text.strip()

print(title)

加上下段代码可解决中文编码问题

太简单了…不写了….

发表于: 2018-01-092018-01-09 10:54:13
原文链接：http://kuaibao.qq.com/s/20180109G07Y0R00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Day02_python数据分析入门

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐