首页
学习
活动
专区
工具
TVP
发布

机器学习入门感想

机器学习入门感想 CorpusTalk分享雷蕾 博士 教授 [华中科大外国语学院]CorpusTalk 应用语言学与学术写作 原创故事

My homepage: http://sfl.hust.edu.cn/info/1139/5993.htm

机器学习入门感想 CorpusTalk分享

今天偶然翻到了下面的文章。

文章比较详细、清晰地介绍了机器学习的基本概念,是了解机器基本内容的好文。

Jarvis, S. (2011). Data mining with learner corpora: Choosing classifiers for L1 detection. In F. Meunier, S. De Cock, G. Gilquin, &M. Paquot (Eds.), A taste for corpora. In honour of Sylviane Granger (pp. 127–154). Amsterdam: John Benjamins.

最近两年,机器学习火得一塌糊涂。于是也凑热闹,在过去半年多时间,陆陆续续翻了一些机器学习的材料,也尝试着运用几个算法做了两个小项目。

最开始运用逻辑回归(logistic regression)进行分类,后来尝试了聚类分析(cluster analysis)。

再后来,情感分析(sentiment analysis)和话题模型 (topic modelling)。

最近,尝试实现了其他数种分类算法 (LDA, SVM, naive bayes, bayes network, knn, neural network …)。

看起来是不是感觉很高大上 ^_^

其实,只是囫囵吞枣、只知其然不知所以然。

还谈不上入门,但仍有几点感想:

首先需要大致了解基本原理,如阅读上面的论文或找其他入门书翻阅。

大胆尝试、多动手,让程序跑起来,一定要先有些感性认识、成就感,而不是陷入技术细节 (见第3点)。

对于文科生,我们需要了解各种算法的运用场景,即在哪种场景用哪种算法即可。

至于算法的技术细节,能深入了解固然好,但估计大多看不太懂 (至少我是这样),也似乎没必要太深入技术细节。

打个比方,如我们运用各种统计方法做统计检验一样,我们知道了在哪种场景使用哪种统计方法、如何实现、如何解读结果即可。

关于工具。

上文提到的weka,是基于Java的机器学习包,几年前大火,现在似乎使用者寥寥。

当前主流的机器学习工具,大多基于Python 或 R 语言 开发。所以,推荐感兴趣的看官尝试 Python 或 R 语言的包。

由于最近半年在学习 R,所以上述所有尝试均在 R 中实现,几乎所有主流算法,均容易找到相应的R package,也容易实现。

半年的学习尝试,感觉脑洞大开,似乎有很多新的想法或选题可做。

是记之。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180222G12ON800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券