首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >截至2020年的数据挖掘开放源码工具。有什么建议吗?

截至2020年的数据挖掘开放源码工具。有什么建议吗?
EN

Software Recommendation用户
提问于 2020-12-26 13:38:03
回答 1查看 64关注 0票数 0

我有80,000 PDF(白皮书,电子书)将用于市场营销.我迫切需要寻找一个工具(希望是开源的),用于文本挖掘,分类,根据它的行业,子行业对80,000个PDF进行分类。我希望文本挖掘工具能够为我提供正确的行业分类和内容内容分类,而不是每一个PDF文档。

举例说明。

代码语言:javascript
运行
复制
FileName/AssetName                        Industry           Content Matter

Oracle_Security_Cloud_Platform.pdf        Cloud              Technology Overview
Oracle_Security_Cloud_Platform.pdf        Security           Technology Overview
AI_Machine_Learning_framework.pdf         A.I                Comparison Guide
AI_Machine_Learning_framework.pdf         Machine Learning   Comparison Guide

一旦我收集了所有的数据,我希望这个工具能够帮助将结果导出到excel中,然后我会将这些记录插入postgre数据库和Google数据工作室进行分析,或者帮助营销团队跟踪他们的活动。

你有什么建议可以做到以下几点:

  1. 可以提供多个内容分类的白皮书在行业上。例如:人工智能,云,安全,大数据,连锁,业务流程和集成等。
  2. 可以突出显示最上面的关键字
  3. 导出到Excel
EN

回答 1

Software Recommendation用户

发布于 2020-12-27 10:27:12

对于R用户:

对于数据分析,我喜欢R.

包文档(和O‘’Reilly )中描述的过程相对简单和通用(可以应用于任何文本)。因此,您不需要计算机科学PhD,也不需要广泛的机器学习培训来应用这些技术。

然而,对于预处理,从PDF中提取文本需要使用其他方法。

此外,文本挖掘1000 s的长文档在内存中将是非常CPU和内存密集型,所以您需要一个非常大的机器从云提供商,或熟悉现代并行化技术(使用集群,使用GPU,使用多CPU机器等)。或者简单地将工作分拆(按类型、域等分组文档并独立分析)

票数 1
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/77439

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档