首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据分享|R语言豆瓣数据文本挖掘 神经网络、词云可视化和交叉验证

全文链接:http://tecdat.cn/?p=31544

该项目以采集的豆瓣电影评论数据(查看文末了解数据免费获取方式)为例,使用R语言和神经网络算法,对文本挖掘进行全流程的分析,包括对其特征及其子集进行提取,并对文本进行词云可视化和分类处理,同时采用交叉验证方法对模型进行调整,从而预测有关评论的类型,并将其作为电影推荐的一个标准。

相关视频

电影评论数据

查看数据

文本预处理 

中文分词技术

不同于英文每一个单词具有明确的划分标准,中国的汉字博大精深、历史悠久。一个词语或者一句话在不同的语境里有多种切分方式,并且随着网络用词的不断更新,许多具有现时意义的词语并不能为计算机所识别。

绘制词汇图

词云不仅能够形象的将文本的主要内容进行呈现,清晰明了地展示出在一个测试集里面最为重要的关键词,同时也可以检验停用词的处理环节是否完善,因为如果不完善,词云中会不可避免地出现一些无意义的单个词。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230206A04RL200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券