我有80,000 PDF(白皮书,电子书)将用于市场营销.我迫切需要寻找一个工具(希望是开源的),用于文本挖掘,分类,根据它的行业,子行业对80,000个PDF进行分类。我希望文本挖掘工具能够为我提供正确的行业分类和内容内容分类,而不是每一个PDF文档。
举例说明。
FileName/AssetName Industry Content Matter
Oracle_Security_Cloud_Platform.pdf Cloud Technology Overview
Oracle_Security_Cloud_Platform.pdf Security Technology Overview
AI_Machine_Learning_framework.pdf A.I Comparison Guide
AI_Machine_Learning_framework.pdf Machine Learning Comparison Guide一旦我收集了所有的数据,我希望这个工具能够帮助将结果导出到excel中,然后我会将这些记录插入postgre数据库和Google数据工作室进行分析,或者帮助营销团队跟踪他们的活动。
你有什么建议可以做到以下几点:
发布于 2020-12-27 10:27:12
对于R用户:
对于数据分析,我喜欢R.
包文档(和O‘’Reilly 书)中描述的过程相对简单和通用(可以应用于任何文本)。因此,您不需要计算机科学PhD,也不需要广泛的机器学习培训来应用这些技术。
然而,对于预处理,从PDF中提取文本需要使用其他方法。
此外,文本挖掘1000 s的长文档在内存中将是非常CPU和内存密集型,所以您需要一个非常大的机器从云提供商,或熟悉现代并行化技术(使用集群,使用GPU,使用多CPU机器等)。或者简单地将工作分拆(按类型、域等分组文档并独立分析)
https://softwarerecs.stackexchange.com/questions/77439
复制相似问题