文章/答案/技术大牛

发布

社区首页 >问答首页 >用于数据挖掘和基于文本分析的模式识别

问用于数据挖掘和基于文本分析的模式识别
EN

Stack Overflow用户

提问于 2012-06-23 14:13:43

回答 6查看 12.3K关注 0票数 4

我正在创建一个软件，用于倾倒任何用户的评论和在他们的Twitter个人资料上发表关于一些化妆品"XYZ“的纯文本。我已经解析了从Twitter API收到的JSON对象，并将原始数据转储到MySql数据库中。

现在我必须分析这些纯文本来获取模式，无论它是一个好的评论或坏的评论等关于化妆品产品"XYZ“，并将这些信息提供给一个单独的API，用于在HTML中创建动态可视化图表。

在基于DataMining和文本的模式识别领域，我完全是个新手。如果有人能建议如何从我的数据库中的纯文本进行模式识别算法，以便为我单独的可视化图表API提供提要，我将非常感激。

machine-learning

data-mining

algorithm

twitter

回答 6

Stack Overflow用户

回答已采纳

发布于 2012-06-23 14:39:15

我真的鼓励你看下面的NLP Stanford lectures，特别是：

第3周-情感分析(这是您想要实现的)
第4周-关系提取(赫斯特模式等)

我想你会发现它们是一个非常有价值的资源。

票数 11

Stack Overflow用户

发布于 2012-06-23 14:36:19

如果您了解模式识别的基础知识：

为您的product.

Define手动创建两组(正面和负面)

帖子，这些帖子的指标、内核或相似性度量。你可以使用高维的二进制向量，每个分量代表一个单词，值1代表存在，0代表该单词的缺失。您还可以为负面单词添加特殊权重，如“not”。
使用机器学习算法在手动创建的集合(类)上训练分类器。你可以使用支持向量机，神经网络，最近邻居和经过训练的分类器来对新的推特帖子进行分类。

这是高层次上的基本思想。当然，有许多细节需要注意，但解释它们超出了SO答案的范围。

票数 3

Stack Overflow用户

发布于 2012-06-23 18:17:48

这个子域称为情感分析。有很多关于这个主题的演讲和文章。不幸的是，到目前为止，我看到的实际结果对我来说并不那么令人信服。

这一挑战的关键是拥有良好的训练数据。使自己成为一个工具，允许您快速浏览数据，并手动将其标记为正/中性/负，以快速获得大量训练集。

请参阅Stanford NLP Lectures，特别是第3周，了解整个过程的详细信息以及一些最先进的方法和技巧。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11167363

复制

相似问题

问用于数据挖掘和基于文本分析的模式识别
EN

回答 6

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于数据挖掘和基于文本分析的模式识别EN

回答 6

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于数据挖掘和基于文本分析的模式识别
EN