首页
学习
活动
专区
工具
TVP
发布

机器学习养成记

专栏作者
151
文章
205681
阅读量
43
订阅数
R语言爬虫与文本分析
之前用python做过简单的爬虫与分析,今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料,然后进行了词云绘制、关键词提取的基本操作。 语料爬取 寻找链接 之
三猫
2018-04-10
1.9K0
静态爬虫与地址经纬度转换(python)
“ 本文通过一个小例子,展示了用python进行静态爬虫的方法,并且将爬取下来的城市列表,通过调用百度地图api,返回对应经纬度。” ---- requests和bs4 1,requests.get():将网页上的数据全部抓取下来。 2,BeautifulSoup():在调用了requests.get()以后,可以通过调用BeautifulSoup()来对代码进行解析。此时生成一个BeautifulSoup对象,针对这个对象,find_all函数可以帮助查找相应标签,get_text函数可以返回对象中文字内
三猫
2018-04-10
2.1K0
《无问西东》豆瓣短评分析【二】
在《无问西东》豆瓣短评分析一文中,我们通过爬虫技术,抓取了220条豆瓣短评与相应打分数据,通过分词与关键词提取技术,比较了正、负向评价的关键词差异。本文中,我们对同样的数据,使用SnowNLP包,对短评进行情感分析,并与实际打分情况进行比较。 情感分析 SnowNLP可以进行中文分词、词性标注、情感分析等操作,对于情感分析,使用的语料库主要为购物方面的,可以替换语料库进行训练。本文中,直接使用默认语料库。 如下,导入《无问西东》豆瓣短评分析中得到的数据,并加载SnowNLP包,对每一条评论计算情感分析
三猫
2018-04-10
8420
《无问西东》豆瓣短评分析
《无问西东》讲述了四代人清华人,在矛盾与期待中不断找寻自我、砥砺前行的故事。上映后得到了广泛的关注,也引发了强烈的讨论。本文首先通过爬虫技术,从豆瓣上获得相关短评内容与打分,然后观察打分分布,划分正负偏好,最后进行分词与关键词提取,观察正向、负向偏好之间关键词差异。 爬取豆瓣短评 寻找链接 首先在浏览器打开豆瓣主页,搜索无问西东电影,可以看到下面的短评板块,点击“更多短评”可以进入短评的专属页面,此页面是一个GET类的url:“https://movie.douban.com/subject/687
三猫
2018-04-10
8160
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档