首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

不能尽信书 CorpusTalk分享

不能尽信书 CorpusTalk分享雷 蕾教授 [华中科大外国语学院]CorpusTalk 讲述语言学与学术写作的故事 坚持原创

My homepage at HUST: http://sfl.hust.edu.cn/info/1139/5993.htm

不能尽信书 CorpusTalk分享

最近在折腾一个topic modeling 的小项目。

翻了几本书,照着书敲代码,结果跑出来了,甚喜,很简单啊,机器学习不过如此嘛!

于是,真实数据搞起来。

然后,问题拖家带口来了。

数据清洗难题一大堆。

书上的干净数据,直接跑;真实数据,dirty, dirty, dirty…

确认k值问题。

书上模拟运行,随便整个k值。

真实数据怎么确认k值?

网上查资料,发现了loglikelihood方法。

代码整过来,运行,等待,貌似死机…

重启。

检查代码,再来一遍。

死机again。

仔细阅读,说是整loglikelihood,需要运行很长时间。

再再来一遍吧,先吃饭去,让机器继续。

饭毕,机器还在跑。

等半小时,还在跑。

再等。

报错!

想起一句话:不能尽信书。

怀疑写书的都是骗纸 …

怀疑智商欠费 …

那些说语言学家是科学家的,请出来走两步。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180130G0JWYU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券