文章/答案/技术大牛

发布

社区首页 >问答首页 >截至2020年的数据挖掘开放源码工具。有什么建议吗？

问截至2020年的数据挖掘开放源码工具。有什么建议吗？
EN

Software Recommendation用户

提问于 2020-12-26 13:38:03

回答 1查看 64关注 0票数 0

我有80,000 PDF(白皮书，电子书)将用于市场营销.我迫切需要寻找一个工具(希望是开源的)，用于文本挖掘，分类，根据它的行业，子行业对80,000个PDF进行分类。我希望文本挖掘工具能够为我提供正确的行业分类和内容内容分类，而不是每一个PDF文档。

举例说明。

FileName/AssetName                        Industry           Content Matter

Oracle_Security_Cloud_Platform.pdf        Cloud              Technology Overview
Oracle_Security_Cloud_Platform.pdf        Security           Technology Overview
AI_Machine_Learning_framework.pdf         A.I                Comparison Guide
AI_Machine_Learning_framework.pdf         Machine Learning   Comparison Guide

一旦我收集了所有的数据，我希望这个工具能够帮助将结果导出到excel中，然后我会将这些记录插入postgre数据库和Google数据工作室进行分析，或者帮助营销团队跟踪他们的活动。

你有什么建议可以做到以下几点：

可以提供多个内容分类的白皮书在行业上。例如：人工智能，云，安全，大数据，连锁，业务流程和集成等。
可以突出显示最上面的关键字
导出到Excel

open-source

sql

data

回答 1

Software Recommendation用户

发布于 2020-12-27 10:27:12

对于R用户：

对于数据分析，我喜欢R.

包文档(和O‘’Reilly 书)中描述的过程相对简单和通用(可以应用于任何文本)。因此，您不需要计算机科学PhD，也不需要广泛的机器学习培训来应用这些技术。

然而，对于预处理，从PDF中提取文本需要使用其他方法。

此外，文本挖掘1000 s的长文档在内存中将是非常CPU和内存密集型，所以您需要一个非常大的机器从云提供商，或熟悉现代并行化技术(使用集群，使用GPU，使用多CPU机器等)。或者简单地将工作分拆(按类型、域等分组文档并独立分析)

票数 1

页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://softwarerecs.stackexchange.com/questions/77439

复制

相似问题

问截至2020年的数据挖掘开放源码工具。有什么建议吗？
EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问截至2020年的数据挖掘开放源码工具。有什么建议吗？EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问截至2020年的数据挖掘开放源码工具。有什么建议吗？
EN