前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >毕业论文爬坑记(建模篇)

毕业论文爬坑记(建模篇)

作者头像
罗罗攀
发布2018-12-25 14:49:14
4700
发布2018-12-25 14:49:14
举报

前言

上回说到,通过Python帮助小姐姐解决论文问题,在结尾我也说过,论文并没有想象的那么简单,下面就是本人最近整理的扎心语录。

  • 爬虫可以获取数据,但有的时候你连数据都不知道在哪。
  • 数据乱成稀巴烂,我还笑着把它算。
  • 建模出错的概率,还真是没让我失望过。

总结来说:论文虐我千百遍,我带论文如初恋。

R2为负数,接近崩溃

今天要说的坑,就是建模的坑。前文说过,我自己的专业学的不是很扎实(最近在恶补),导致很多问题,当我全部解决的时候,拿到了处理后的数据,我以为展现我的Python技术的时候到了。

万万没想到,我使用回归算法(包括KNN,集成算法,SVM),结果都惊人的类似,精度R2全部为负数。

一首凉凉送给我,第一次碰到R2为负数~我还是太年轻啊,书上的都是挑的案例还真是好。

找原因

出现问题,当然只能去找问题了。在网上查了一下,总结如下:

  • 数据间没规律
  • 数据量太小
  • 特征太少

看到第一条,我都要吓尿了,排除第一条,开始做处理啦~

处理

数据量少的问题,我当时也是找有想到,后面只能重新处理二调数据(就是林业上的数据),讲数据扩充了10倍。 建模看看,发现为0.2左右,有进步,不错,继续。

然后对类别数据进行了哑变量处理,还组合了一些特征。 现在稳定平均在0.5左右。

当然,模型是有超参数的,这里参数调整还在继续~ 现在在0.8左右。

总结

对于其他坑,多出于专业本身,我会在毕业后,全部分享给大家。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.12.10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • R2为负数,接近崩溃
  • 找原因
  • 处理
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档