首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Part 2.5 特征工程

Applications of Deep Neural Networks with Keras

基于Keras的深度神经网络应用

著:Jeff Heaton  译:人工智能学术前沿

目录

1.Python基础

2.机器学习Python

3.TensorFlow简介

4.表格类数据的训练

5.正则化和Dropout

6.用于计算机视觉的卷积神经网络

7.生成对抗网络

8.Kaggle数据集

9.迁移学习

10.Keras的时间序列

11.自然语言处理与语音识别

12.强化学习

13.Advanced/Other Topics

14.其他神经网络技术

       2.5 特征工程   

Part 2.5: Feature Engineering

特征工程是机器学习的重要组成部分。现在,我们将手工设计特征。然而,在本课程的后面,我们将看到一些自动特征工程的技术。

计算字段

calculated fields

可以向程序从其他字段计算的数据帧中添加新的字段。我们可以创建一个新的列来给出重量单位是千克。给定单位为磅的重量,计算公制重量的公式为:

下面的Python代码执行此转换:

地址很难编码到神经网络中。有许多不同的方法,您必须考虑如何将地址转换为更有意义的内容。地图坐标是一个很好的方法。纬度和经度可以是一种有用的编码。由于互联网的强大功能,将地址转换成经纬度值相对容易。下面的代码确定了华盛顿大学的坐标:

如果把纬度和经度作为两个特征输入神经网络,它们可能不会有太大帮助。这两个值可以让你的神经网络将地图上的位置聚类。有时地图上的群集位置是有用的。图2。SMK显示了美国各州吸烟人口的百分比。

图2。SMK:按州划分的吸烟者

上面的地图显示,某些行为,比如吸烟,可以在全球范围内聚集。

然而,您经常想要将坐标转换为距离。用球面上任意两点之间的大圆距离来估计地球上任意两点之间的距离是相当容易的:

下面的代码实现了这个公式:

Δ=arccos(sin1⋅sin2+cos1⋅cos2⋅cos(Δ))

输出

Distance, St. Louis, MO to Ft. Lauderdale, FL: 1685.530517973114 km

距离是编码地址的一种有用方法。如果您考虑到什么距离可能对您的数据集有帮助,这将是有帮助的。考虑:

1.到大城市的距离

2.与竞争对手的距离

3.到配送中心的距离

4到零售店的距离

下面的代码计算了10所大学到圣路易斯华盛顿大学的距离:

输出

School 'Princeton', distance to wustl is: 1354.4748428037537

School 'Harvard', distance to wustl is: 1670.6358699966058

School 'University of Chicago', distance to wustl is: 418.07123096093096

School 'Yale', distance to wustl is: 1508.209168740192

School 'Columbia University', distance to wustl is: 1418.2512902029155

School 'Stanford', distance to wustl is: 2780.7830466634337

School 'MIT', distance to wustl is: 1672.4354422735219

School 'Duke University', distance to wustl is: 1046.7924543575177

School 'University of Pennsylvania', distance to wustl is: 1307.1873732319766

School 'Johns Hopkins', distance to wustl is: 1184.3754484499111

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20211013A000JJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券