全文链接:http://tecdat.cn/?p=6763
相关视频:文本挖掘:主题模型(LDA)及R语言实现分析游记数据
文本挖掘:主题模型(LDA)及R语言实现分析游记数据
时长12:59
1 NASA如何组织数据
首先,让我们下载JSON文件,并查看元数据中存储的名称。
我们在这里看到,我们可以从发布每个数据集的人那里获取信息,以获取他们发布的许可证。
相关视频
1.1 整理数据
让我们为标题,描述和关键字设置单独的数据框,保留每个数据集的数据集ID,以便我们可以在后面的分析中将它们连接起来 。
1.2 初步的简单探索
NASA数据集中最常见的单词是什么?
最常见的关键字是什么?
2.1描述和标题词的网络
我们可以使用来计算每对单词在标题或描述字段中出现的次数。
这些是最常出现在descripton字段中的单词对。
我们在这个标题词网络中看到了一些清晰的聚类; 国家航空航天局数据集标题中的单词大部分被组织成几个词汇系列,这些词汇聚类一起。
领取专属 10元无门槛券
私享最新 技术干货