我正在创建一个软件,用于倾倒任何用户的评论和在他们的Twitter个人资料上发表关于一些化妆品"XYZ“的纯文本。我已经解析了从Twitter API收到的JSON对象,并将原始数据转储到MySql数据库中。
现在我必须分析这些纯文本来获取模式,无论它是一个好的评论或坏的评论等关于化妆品产品"XYZ“,并将这些信息提供给一个单独的API,用于在HTML中创建动态可视化图表。
在基于DataMining和文本的模式识别领域,我完全是个新手。如果有人能建议如何从我的数据库中的纯文本进行模式识别算法,以便为我单独的可视化图表API提供提要,我将非常感激。
发布于 2012-06-23 14:39:15
发布于 2012-06-23 14:36:19
如果您了解模式识别的基础知识:
为您的product.
这是高层次上的基本思想。当然,有许多细节需要注意,但解释它们超出了SO答案的范围。
发布于 2012-06-23 18:17:48
这个子域称为情感分析。有很多关于这个主题的演讲和文章。不幸的是,到目前为止,我看到的实际结果对我来说并不那么令人信服。
这一挑战的关键是拥有良好的训练数据。使自己成为一个工具,允许您快速浏览数据,并手动将其标记为正/中性/负,以快速获得大量训练集。
请参阅Stanford NLP Lectures,特别是第3周,了解整个过程的详细信息以及一些最先进的方法和技巧。
https://stackoverflow.com/questions/11167363
复制相似问题