没资料,写不出论文?试试网络爬虫吧!

硕博就业出国

读博/求职/出国机会监控(点二维码关注)

写论文,还在为数据和资料发愁?那可能是因为你获取数据的方法太落后了。试试网络爬虫吧!

作为一种研究方法辅助,现在很多学科都在风行使用网络爬虫技术。海量的数据呈现之下,传统方法显得既笨拙、又呆板。有同学和老师反映,现在如果还用那些传统方法获取数据写论文,期刊编辑都没兴趣了!

网络爬虫这么有用,可很少有地方可以系统而直观地学。有同学和老师还抱怨,网上扒的一些资料,要么不知所云,要么废话连篇,学了许久都还搞不清楚,真是愁坏了。

在此情况下,中外学术情报专门邀请了美国名校Jack老师来给大家讲授“如何用Ptython抓取网页数据”这个课。Jack老师是信息科学博士,在信息与数据处理相关研究方法方面经验老道,并拥有丰富教学经验。让他讲这个方法,实在太适合不过了。

本系列课程共分三讲,讲课中,老师极其注意效率,内容丰富,全面系统。外加这是个视频课,直观可视,简直是一学就会,一听就懂。

具体来说,该课程包括但不限于以下重要内容:

第一讲

1. 网络数据资源的存储和展示

本小节介绍服务器上的数据资源存储,用html/css/JS/AJAX说明网页资源的展示。

2.如何用个人设备访问网络资源(‘三次握手‘)

通过三次握手的说明,表达个人设备访问和获取网络所需要经历的过程。

3.网络爬虫的工作原理介绍

通过爬虫工作原理和工作流程的讲解,更清楚地明确了爬虫的工作过程,从而为写爬虫程序提供了一定的基础。

第二讲

1.用Python构建网络爬虫

Python抓取网页数据,既简单而又具有一定的灵活性。同时Python可以有多种方式构建网络爬虫,抓取数据。

2.Python 两大爬数据的包对比

BeautifulSoup V.S. Scrapy

3. 其他与爬虫相关的方法和包介绍

本节通过查阅BeautifulSoup的官方文档,进行相关方法的具体说明和介绍,从而明确在爬虫中常用的方法和本课程实验能用到的方法等。

4. 如何防止被网络服务器禁止爬数据

网络爬虫被服务器禁止是常用的事,因而本节提供了两个常用的方法帮助爬虫躲避服务器的侦测,从而抓取数据。

第三讲

1. 实际演示如何从Yelp上抓取纽约地区的餐馆数据

餐馆名称/评级/口味/电话号码/地理位置等数据

2.实际演示如何从IMDB上抓取电影评论数据

某部电影的评分数/评论内容/评论人数/

如上所示,学生通过该课程,既能明确网络资源的存储展示,网站的显示细节、网络爬虫的工作原理等,又能会学会如何用Python BeautifulSoup包抓取网上的数据以及防止服务器禁止爬虫方法等实际操作方法,可谓收获满满。

学会了数据抓取和存储,现在不论是对个人的学术学习研究还是公司开拓新市场,均有非常重要的作用。当下比较流行的人工智能、机器学习、深度学习,更是离不开数据的支撑。该课程不仅从理论上介绍网络爬虫抓取数据的过程,更有通过真实的例子手把手教学生用Python抓取数据,真是非常有用,最好一定要来学学。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181028B08RSY00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券