专栏首页arxiv.org翻译专栏面向低资源语言的情感分析器(CS AI)
原创

面向低资源语言的情感分析器(CS AI)

Twitter是最受影响的社交媒体之一,拥有数百万活跃用户。它通常用于微博,允许用户分享消息、想法、想法等。因此,数以百万计的互动,如短信或推特,在推特用户之间流动,讨论世界各地发生的各种话题。这项研究旨在分析用户对某一特定热门话题的情绪,该话题在当时已被广泛积极地讨论过。我们选择了一个标签#kpujangancurang,这是2019年印度尼西亚总统选举期间的热门话题。我们使用标签从推特上获得一组数据,以分析和进一步调查用户从他们的推特上的积极或消极情绪。本研究利用快速挖掘工具生成微博数据,比较朴素贝叶斯、最近邻、决策树和多层感知器分类方法对微博数据进行情感分类。这个实验总共有200个标记数据。总体而言,朴素贝叶斯和多层感知器分类在11个不同大小的训练测试数据分割的实验中优于其他两种方法。这两个分类器有可能用于为小语料库的低资源语言创建情感分析器。

原文题目:Towards A Sentiment Analyzer for Low-Resource Languages

原文:Twitter is one of the top influenced social media which has a million number of active users. It is commonly used for microblogging that allows users to share messages, ideas, thoughts and many more. Thus, millions interaction such as short messages or tweets are flowing around among the twitter users discussing various topics that has been happening world-wide. This research aims to analyse a sentiment of the users towards a particular trending topic that has been actively and massively discussed at that time. We chose a hashtag #kpujangancurang that was the trending topic during the Indonesia presidential election in 2019. We use the hashtag to obtain a set of data from Twitter to analyse and investigate further the positive or the negative sentiment of the users from their tweets. This research utilizes rapid miner tool to generate the twitter data and comparing Naive Bayes, K-Nearest Neighbor, Decision Tree, and Multi-Layer Perceptron classification methods to classify the sentiment of the twitter data. There are overall 200 labeled data in this experiment. Overall, Naive Bayes and Multi-Layer Perceptron classification outperformed the other two methods on 11 experiments with different size of training-testing data split. The two classifiers are potential to be used in creating sentiment analyzer for low-resource languages with small corpus.

原文作者:Dian Indriani, Arbi Haza Nasution, Winda Monika,Salhazan Nasution

原文地址:https://arxiv.org/abs/2011.06382

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基于图论的分布式网格恢复(CS SC)

    随着智能电网作为广域配电的主要手段的出现,提高其故障和灾难恢复能力的重要性日益增加。配电系统的可靠性取决于其对攻击的容忍度和攻击发生后的恢复效率。本文提出了一种...

    识檐
  • 新冠肺炎高原:适应性预防策略下的流行病发展现象(CS SI)

    自新冠肺炎扩散开始以来,关于流行病模型的研究数量急剧增加。对于决策者来说,了解疾病将如何传播,以及政策和环境对传播的影响是很重要的。在本文中,我们对标准传染病模...

    识檐
  • 星际转移轨道设计的差分进化优化工具(CS AI)

    星际转移轨道设计中极其敏感和高度非线性的搜索空间给全局优化带来了巨大挑战。作为代表,目前已知的由欧洲航天局(ESA)设计的全球轨道优化问题(GTOP)的最佳解是...

    识檐
  • Nature:给博士研究生的四条箴言Four golden lessons,颜宁:写的真好!

    史蒂文·温伯格(Steven Weinberg,1933年5月3日-),生于纽约,美国物理学家,1979年获诺贝尔物理学奖。

    智能算法
  • 翻译 | 深度学习机器72小时自学国际象棋达到大师水平

    本文在腾讯云+社区人工智能专栏首发, 为原创翻译文章. 文章正文部分以引用格式给出原文 导读 英文原文发布于2015年9月, 当时 Google 旗下 Dee...

    benny
  • 精准农业技术经济效益计算的网络工具(CS)

    为了充分发挥精准农业(PA)的潜力,使农业朝着可持续和弹性恢复的方向发展,适当的经济评估标准被认为是最重要的需要紧急和持续关注的问题之一。在这项工作中,我们开发...

    用户8055484
  • MIT校长评中美科技:没有人能从他人的失败中获得成功

    “#榜样的力量#数据猿公益策划活动——寻找新冠战“疫”,中国数据智能产业先锋力量:申报项目、提交文章(或深度采访),即可参与此次活动最终推出的榜单、勋章、思想者...

    数据猿
  • Facilitator as Coach, Teacher, Trainer, and Mentor

    As facilitators, I think most of us will agree that our foremost role is this: t...

    Albert陈凯
  • 序列模型第一周作业2: Character level language model - Dinosaurus land

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/...

    Steve Wang
  • 【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

    【导读】专知内容组整理了最近六篇主题模型(Topic Model)相关文章,为大家进行介绍,欢迎查看! 1.Convergence Rates of Laten...

    WZEARW

扫码关注云+社区

领取腾讯云代金券