首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【特征工程系列一】论特征的重要性

满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁。反过来想,趁大家都懈怠的时候,正是学习的最佳时机。趁着这几天,也给自己加点码,去认真的再看一下特征工程。我给自己列了下面的这一份学习清单,也会在过年前后逐一分享给大家。

(补充下,为什么要选这个类目去写呢,因为看过很多机器学习的书,都是直接讲算法,没有特征工程的章节,我自己写的那本虽然有些,但是感觉内容单薄了点,需要补充。)

《特征工程系列二,显性特征的基本处理方法》:讲一下如何处理数据特征,以及最基本的概念

《特征工程三,显性特征的衍生》:准备通过NBA球星的数据,展示下特征的衍生的一些概念

《特征工程四,Wide&Deep Learning for Recommender Systems》:讲一下如何通过线性算法的显性特征以及深度学习NN算法中的提取的隐式特征做推荐系统

《特征工程五,基于蒙特卡洛树搜索的半自动特征工程方案》:特征工程需要大量的人工干预和专家经验,那么能不能有一种方案去实现自动特征工程呢,纯自己YY了一套可能的方案。

下面我们进入今天的正题,特征工程有多重要,可以引用一句话来表达:“数据和特征决定了模型的上限,算法只是在帮忙逼近这个上限。”好的特征是决定一个模型准确率的关键,那问题来了?什么是特征呢,特征就是数据对于结果的一种描述。比如我们形容一个人是否漂亮,那她的眼睛大小、鼻子的形状、脸型都是特征。通常,当获得一份结构化数据的时候,如果这份数据里存在目标列,那么除了目标列每个字段都可以看做是特征,特征工程要做的事情是找到对结果影响最大的特征。

了解了特征的重要性,我们就可以开启这一系列文章的分享了,不过在此之前,有几个概念需要再明确下。特征分哪几种呢?

显性特征:可以理解为用户直接可以拿到的数据字段

半隐性特征:用户数据在通过GBDT等算法的计算过程中产出的一些特征

隐性特征:深度学习在很大程度上可以简化人肉特征工程的工作量,因为深度学习可以在计算过程中自动生成一些特征向量,这些特征的表达往往是不可解释的,那这些特征就是隐性特征。

Ok~同步完这些概念,开启冲刺,年前要好好学习并分享特征工程的系列文章。不到最后一刻我是拒绝给大家拜年的,大家一起学习到年前最后一天

End

为了方便大家学习与交流,凡人云近日已开通机器学习社群!

分享公众号名片到40人以上的大群并截图给小助手,小助手就会拉你入群

在这里你可以得到:

1.各种学术讨论

2.最新的资料分享

3.不定期的征文以及联谊活动!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180202G00PGA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券