文章/答案/技术大牛

发布

问特定算法的特征工程
EN

Data Science用户

提问于 2018-02-28 10:34:21

回答 2查看 254关注 0票数 0

几天前，一家人工智能金融服务提供商给我们上了一课，并提到你应该根据具体的算法(你是using.For的例子)来进行具体的特征工程。当使用物流回归时，将更多的特征(不相关)(如将连续变量结合成离散变量)拟合成离散的特征往往是suggested.Because物流回归的一个简单算法，我们试图以更好地分离样本的方式来提高维数。

我搜索了很多(也许还没有)，大多数材料是“为什么/什么特性工程重要”，“缩放/标准化/连续变量”，“处理空值”或一些没有离散操作的理论评论。

为什么和如何在特定的algorithm.Or上工作

(我不擅长英语，如果我不清楚的话，很抱歉)

我不期待一个详细的答案，对这部分有一些深入的思考是好的。

machine-learning

feature-engineering

回答 2

Data Science用户

发布于 2018-05-30 10:11:24

一般情况下，特征被设计成以简洁的表示形式保留数据集中的最佳相关信息，然后对特征进行调整，使算法能够接受它作为输入。

特征工程一般涉及到二值化、主成分分析等方法，使这些特征传递到算法中是另一个步骤，它是特征工程步骤中的一个很小的部分。调整示例:对于图像，我们可能需要像下面这样重新塑造图像，这样x0就可以指向图像

x = image.img_to_array(img)
normalise(x) // feature engineering
x = x.reshape((1,) + x.shape) // Adapting for algorithm

有了这种理解，如果为数据集生成一次特征，则可以将其用于任何具有相应适应性的相关算法。

票数 1

Data Science用户

发布于 2018-02-28 11:24:58

一些算法，比如增强树(XGBoost )，很容易处理数据中几乎任何“奇怪”的东西: NaN值、离群值、不同的标度。这些算法能够自动发现数据中复杂的特征交互。但是，如果你使用一些不同的或简单的算法，比如线性回归，你必须做一些特征预处理才能得到好的结果:填充或删除NaNs和野值；对所有特征进行相似的缩放；尝试生成多项式特征等等。否则，你可能会得到奇怪或非常不准确的结果。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/28398

复制

相似问题

问特定算法的特征工程
EN

(我不擅长英语，如果我不清楚的话，很抱歉)

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问特定算法的特征工程EN

(我不擅长英语，如果我不清楚的话，很抱歉)

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问特定算法的特征工程
EN