首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言文本挖掘NASA数据网络分析,tf-idf和主题建模

全文链接:http://tecdat.cn/?p=6763

相关视频:文本挖掘:主题模型(LDA)及R语言实现分析游记数据

文本挖掘:主题模型(LDA)及R语言实现分析游记数据

时长12:59

1 NASA如何组织数据

首先,让我们下载JSON文件,并查看元数据中存储的名称。

我们在这里看到,我们可以从发布每个数据集的人那里获取信息,以获取他们发布的许可证。

相关视频

1.1 整理数据

让我们为标题,描述和关键字设置单独的数据框,保留每个数据集的数据集ID,以便我们可以在后面的分析中将它们连接起来 。

1.2 初步的简单探索

NASA数据集中最常见的单词是什么?

最常见的关键字是什么?

2.1描述和标题词的网络

我们可以使用来计算每对单词在标题或描述字段中出现的次数。

这些是最常出现在descripton字段中的单词对。

我们在这个标题词网络中看到了一些清晰的聚类; 国家航空航天局数据集标题中的单词大部分被组织成几个词汇系列,这些词汇聚类一起。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20221122A05RUS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券