首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >特定算法的特征工程

特定算法的特征工程
EN

Data Science用户
提问于 2018-02-28 10:34:21
回答 2查看 254关注 0票数 0

几天前,一家人工智能金融服务提供商给我们上了一课,并提到你应该根据具体的算法(你是using.For的例子)来进行具体的特征工程。当使用物流回归时,将更多的特征(不相关)(如将连续变量结合成离散变量)拟合成离散的特征往往是suggested.Because物流回归的一个简单算法,我们试图以更好地分离样本的方式来提高维数。

我搜索了很多(也许还没有),大多数材料是“为什么/什么特性工程重要”,“缩放/标准化/连续变量”,“处理空值”或一些没有离散操作的理论评论。

为什么和如何在特定的algorithm.Or上工作

(我不擅长英语,如果我不清楚的话,很抱歉)

我不期待一个详细的答案,对这部分有一些深入的思考是好的。

EN

回答 2

Data Science用户

发布于 2018-05-30 10:11:24

一般情况下,特征被设计成以简洁的表示形式保留数据集中的最佳相关信息,然后对特征进行调整,使算法能够接受它作为输入。

特征工程一般涉及到二值化、主成分分析等方法,使这些特征传递到算法中是另一个步骤,它是特征工程步骤中的一个很小的部分。调整示例:对于图像,我们可能需要像下面这样重新塑造图像,这样x0就可以指向图像

代码语言:javascript
运行
复制
x = image.img_to_array(img)
normalise(x) // feature engineering
x = x.reshape((1,) + x.shape) // Adapting for algorithm

有了这种理解,如果为数据集生成一次特征,则可以将其用于任何具有相应适应性的相关算法。

票数 1
EN

Data Science用户

发布于 2018-02-28 11:24:58

一些算法,比如增强树(XGBoost ),很容易处理数据中几乎任何“奇怪”的东西: NaN值、离群值、不同的标度。这些算法能够自动发现数据中复杂的特征交互。但是,如果你使用一些不同的或简单的算法,比如线性回归,你必须做一些特征预处理才能得到好的结果:填充或删除NaNs和野值;对所有特征进行相似的缩放;尝试生成多项式特征等等。否则,你可能会得到奇怪或非常不准确的结果。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/28398

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档