前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >自然语言处理--文本处理

自然语言处理--文本处理

作者头像
linxinzhe
发布2018-04-10 14:41:59
2K0
发布2018-04-10 14:41:59
举报
文章被收录于专栏:林欣哲林欣哲

自然语言处理的目的是让机器试图理解和处理人类的文字。通常来说,人的语言是冗余的,含有歧义的,而机器是准确的,无歧义的,要让机器理解,这之间存在一个转换的问题。

通常做法的逻辑思路是,文本处理-->特征提取-->建立模型

文本处理是为了让数据干净,便于输入数学模型做处理。

文本处理的常见流程:

  1. 文本获取:下载数据集;通过爬虫程序从网上收集;通过SQL语句从数据库读取等等;
  2. 文本提取:从多种数据来源提取文本(如从网页、txt、pdf文件、OCR纸张的复印件、甚至语音识别),如用正则表达式提取文本,网页则用CSS选择器的语法提取文本,复印件图片则用OCR识别文本技术。
  3. 文本正则化:也就是规范化文本,英文需要处理大小写,可以根据需要去除标点符号,
  4. 文本词语切分:中文需要分词,英文直接按空格拆分出一个个单词。
  5. 通用词删除:去掉高频的无意义的词,如“的”、“地”、“得”等等。
  6. 词性分析:词是动词、名词、状语之类的。为了了解句子结构。
  7. 专有名词识别:公司名、人名、地名
  8. 词干提取(stemming)和词形还原(lemmatization) :英文词会有各种时态和单复数变形,需要把词还原成词干。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-10-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 林欣哲 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档