不能尽信书 CorpusTalk分享

不能尽信书 CorpusTalk分享雷 蕾教授 [华中科大外国语学院]CorpusTalk 讲述语言学与学术写作的故事 坚持原创

My homepage at HUST: http://sfl.hust.edu.cn/info/1139/5993.htm

不能尽信书 CorpusTalk分享

最近在折腾一个topic modeling 的小项目。

翻了几本书,照着书敲代码,结果跑出来了,甚喜,很简单啊,机器学习不过如此嘛!

于是,真实数据搞起来。

然后,问题拖家带口来了。

数据清洗难题一大堆。

书上的干净数据,直接跑;真实数据,dirty, dirty, dirty…

确认k值问题。

书上模拟运行,随便整个k值。

真实数据怎么确认k值?

网上查资料,发现了loglikelihood方法。

代码整过来,运行,等待,貌似死机…

重启。

检查代码,再来一遍。

死机again。

仔细阅读,说是整loglikelihood,需要运行很长时间。

再再来一遍吧,先吃饭去,让机器继续。

饭毕,机器还在跑。

等半小时,还在跑。

再等。

报错!

想起一句话:不能尽信书。

怀疑写书的都是骗纸 …

怀疑智商欠费 …

那些说语言学家是科学家的,请出来走两步。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180130G0JWYU00?refer=cp_1026

扫码关注云+社区