首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用于数据挖掘和基于文本分析的模式识别

用于数据挖掘和基于文本分析的模式识别
EN

Stack Overflow用户
提问于 2012-06-23 14:13:43
回答 6查看 12.3K关注 0票数 4

我正在创建一个软件,用于倾倒任何用户的评论和在他们的Twitter个人资料上发表关于一些化妆品"XYZ“的纯文本。我已经解析了从Twitter API收到的JSON对象,并将原始数据转储到MySql数据库中。

现在我必须分析这些纯文本来获取模式,无论它是一个好的评论或坏的评论等关于化妆品产品"XYZ“,并将这些信息提供给一个单独的API,用于在HTML中创建动态可视化图表。

在基于DataMining和文本的模式识别领域,我完全是个新手。如果有人能建议如何从我的数据库中的纯文本进行模式识别算法,以便为我单独的可视化图表API提供提要,我将非常感激。

EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2012-06-23 14:39:15

我真的鼓励你看下面的NLP Stanford lectures,特别是:

  • 第3周-情感分析(这是您想要实现的)
  • 第4周-关系提取(赫斯特模式等)

我想你会发现它们是一个非常有价值的资源。

票数 11
EN

Stack Overflow用户

发布于 2012-06-23 14:36:19

如果您了解模式识别的基础知识:

为您的product.

  • Define手动创建两组(正面和负面)
  1. 帖子,这些帖子的指标、内核或相似性度量。你可以使用高维的二进制向量,每个分量代表一个单词,值1代表存在,0代表该单词的缺失。您还可以为负面单词添加特殊权重,如“not”。
  2. 使用机器学习算法在手动创建的集合(类)上训练分类器。你可以使用支持向量机,神经网络,最近邻居和经过训练的分类器来对新的推特帖子进行分类。

这是高层次上的基本思想。当然,有许多细节需要注意,但解释它们超出了SO答案的范围。

票数 3
EN

Stack Overflow用户

发布于 2012-06-23 18:17:48

这个子域称为情感分析。有很多关于这个主题的演讲和文章。不幸的是,到目前为止,我看到的实际结果对我来说并不那么令人信服。

这一挑战的关键是拥有良好的训练数据。使自己成为一个工具,允许您快速浏览数据,并手动将其标记为正/中性/负,以快速获得大量训练集。

请参阅Stanford NLP Lectures,特别是第3周,了解整个过程的详细信息以及一些最先进的方法和技巧。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11167363

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档