完整项目源码
关注微信公众号 datayx 然后回复 评论 即可获取。
实验环境
上述文件中product文件夹是定制好抓取电子产品价格的数据采集器,MySQL建立数据库见文件
应用scrapy爬虫框架,定制爬虫抓取中关村报价产品的价格数据并且存储于MySQL数据库中
1.其中的过程是分析网页的Xpath路径,根据要获取的数据的路径定位到价格数据(可以分析不同的网站数据抓取)
2.存储数据打MySQL数据库中,主要是方便操作和使用
scrapy startproject tutorial
爬虫名字可以随意设定,同时设定采集器在服务器上能够定时采集数据这里定制bat文件。 锁定域名范围为:zol.com分析URL
中正则表达式如下:http://detail.zol.com.cn/cell_phone/index****.shtml
最后将采集到的数据存储到MySQL数据库中如下图:
如果是在Linux服务器上做该定时任务只需要按照需要编写crontab即可。
爬虫定制方法以及网页分析
这里为了处理抓取新闻数据时候需要处理动态页面的信息采用了beautifulsoup,通过调用相关接口处理JS页面。 为保证数据的全面性而选取了百度新闻,同样需要分析页面源码的Xpath路径,为了剔除网页的标签,需要同上的路径分析。 最后可以通过用户提供的关键词获取新闻数据,效果如下图所示:
获得的新闻数据如下:
通过分析对比发现随机森林分类效果最好。
最终特征如下图所示:
再根据情感程度匹配来计算文本的情感倾向得分:在情感词典这里采用了知网基础情感词、和自己通过语料和搜索引擎得到的领域情感词(详细描过程见源码)最终得到该品牌下的情感倾向因素得分如下图:
图中分别是积极消极得分和平均分以及方差。
模型建立过程详细见论文描述,最后得到各个模型的实验系统如图所示:
基于应用上述研究的算法对电子产品的价格作出预测后,在Android系统开发应用软件增加研究的实际意义展示效果如下:
单个商品的预测趋势如下图所示: