首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

旅游舆情数据的清洗

舆情数据清洗,指对“脏”数据进行对应方式的处理,“脏”在这里意味着数据的质量不够好,会掩盖数据的价值,更会对后续的数据分析带来不同程度的影响。有调查称,一个相关项目的进展80%的时间可能会花费在数据清洗上。因为清洗必然意味着要对数据有一定的理解,而这个工作是自动化或计算机解决不了的难题,只能人为对数据进行重新审查和校验,找到问题所在,并通过一些方法对相应的数据源进行重新整理。

图片来自网络

清洗数据主要是为了清除以下以下四类数据:

1、非文本数据

很多时候我们的分类文本都来自爬虫的爬取结果,因此文本中常常会带有HTML标签与URL地址等非文本内容。因此,需要清除这部分内容对分类没有什么帮助的内容。

2、去除指定无用的符号

可以使用Python包替换一些指定的字符数据,可以用在去除文本中大量重复的符号。

3、无意义文本

此外,还需要过滤掉剩余文本中的如广告内容、版权信息及个性签名的部分,毫无疑问,这些也都不应作为特征被模型学习。

4、长串数字或字母

通常情况下中文文本中长串的数字代表手机号、车牌号及用户名ID等文本内容,在非特定的文本分类情境下可以去除。或将其转换为归一化的特征,如是否出现长串数字的布尔值特征HAS_DIGITAL、按长度归一的DIGIAL_LEN_10等。值得一提的是,表情代号常常作为长串数字或字母出现,却能在情感分析中起到巨大作用。

在清洗完上述“脏”数据后,通常还会按下列步骤对数据进行处理,以便后续的数据分析更准确:

01、进行分词

中文文本数据,如一条中文的句子,词与词之间是连续的,而我们希望数据分析的最小单位粒度是词语,因此,我们需要进行分词工作,这样就能够给下一步的工作做好准备。而对于英文文本句子,就不存在分词这一说法了,因为英文句子的最小单位就是词语,词与词之间是有空格隔开的。

使用jieba包进行分词处理,我们可以得到干净的文本,文本中起到关键作用的是一些词,主要词就能决定文本的取向。

由于计算机无法识别自然语言,我们自然也就无法直接将原始文本直接扔到分类算法中得到分类结果。因此,我们需要先将文本转化为一定格式的特征编码,文本分类区别于其他文类问题的特点就在于此。显然,转化后的特征编码能够携带越多的文本特征,就越能帮助分类算法预测出对应的类别。

中文文本分类最常用的特征提取方法是分词。区别于英文天然存在空格符作为词与词之间的间隔标志,中文文本中词的提取必须通过基于序列预测等方法的分词技术来实现。在提取了特征值之后,再采用One-hot或TF-IDF等方法将每个样本转化为固定长度的特征编码作为分类算法的输入。

02、去除停用词

经过上面的步骤,我们已经把所有的词进行了分类。但是这些词并不都是我们所需要的,比如句号“。”。显然,句号对意思的表达没有什么效果,还有如“是”、“的”等无意义词。这些词在所有的文章中都大量存在,并不能反应出文本的意思,可以清理掉。通常情况下,在文本中去掉这些停用词能够使模型更好地去拟合实际的语义特征,从而增加模型的泛化能力。

值得注意的是,停用词表并不是一成不变的。针对不同的文本分类情景,所采用的停用词表也应该作出针对性的调整。例如书名号“《”和“》”往往比书名本身更能代表书名的特征,冒号“:”通常出现在人物访谈类文章的标题中,人称代词“他”和“她”在情感类文章标题中频繁使用等。根据情景灵活地使用停用词表,往往能够起到意想不到的效果。

例如:

标点符号:,。!/、*+-

特殊符号:웃유▲等

无意义的虚词:“你”、“我”、“他们”、“想要”、“打开”、“可以”等。

03、变形词识别和替换

变形词问题除了能让我们感叹中文博大精深之外,也时时刻刻困扰文本分类工作者,极大地增加了广告识别及涉黄涉政等特殊文本分类场景下的分类难度。对中文词的变形通常采用的方法有特殊符号替换、同音近型替换及简繁替换等。

要做到变形词的识别和替换,除了建立常见变形词的映射表以外,还可以尝试用拼音首字母的方法来鉴别同音替换的变形词。以及用Word2vec词向量来对比变形词与上下文的语意关联度,从而识别出该词是否经过了变形。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OJ-8WJEnpt5ZPPGNiN34slyQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券