前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >统计自然语言处理-基础知识

统计自然语言处理-基础知识

作者头像
数据处理与分析
发布2019-07-31 16:44:52
4140
发布2019-07-31 16:44:52
举报
基础知识
数学基础

数学我工作这几年时间,基本把之前学的忘光了(虽然学的也不咋地!?)。但做数据,最重要的就是清晰的思路!而数学,大概就是训练人的逻辑性很好的途径吧。好了,开始本周的读书分享! 数学这一章,我也就贝叶斯有点印象,别的,我都不认识了,哈哈!

数学的重要性毋庸置疑,但事实上在工作中,很少有机会去研究数学。尤其是作为像地理信息系统这样的应用学科。作为从业者,能将数学、物理、计算机等基础学科的研究成果当作工具拿来用,能用好就行了(说实话,我是真的学不会啊!)。说到这里,不得不感谢像pandas、numpy这些python库的作者们,由于他们的存在,才允许我在工作中,一个import就可以导入相关的功能,来实现复杂计算,比如最小二乘、期望、方差……只要有需求,在已有库中总能找得到!

由于看不懂,我就先略过,看后面的内容了(如果有哪位大佬对这些内容比较了解,希望可以给我科普下)!

语言学基础

语言学与数学相比,更接地气一点!语言嘛,就是我们平常说的话,这东西说简单也简单,我们每天都通过语言来交流、来沟通;但是说复杂也复杂,毕竟,同样的词语,在不同的语境下,往往有着不同的含义。

按照书中所讲,语言学家们将词语进行了分类,但那是语言学家们使用的,更接地气的是词性!但词性粒度较粗,所以语料库语言学家们使用了粒度更细的分类方法!

词语的含义

语言就是这么复杂的东西,想基于语义做一些产品,绝绕不过语言学的坑!还好,有许多国内外的案例可以借鉴!

基于语料库的工作

通过对数学与语言学的简单了解,就可以开始了解在语料库的工作中要用到的一些工具了。首先,是计算机,然后,见下图吧!

要处理文本,正则表达式绝对是个好用的工具!但事实上,针对复杂的情况,我们有更好的选择,比如说:NLTK,结巴,等优秀的工具或方法可供选择!

总结

第二周了,又读了点书,继续努力!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-01-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据处理与分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基础知识
    • 数学基础
      • 语言学基础
        • 基于语料库的工作
        • 总结
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档