几天前,一家人工智能金融服务提供商给我们上了一课,并提到你应该根据具体的算法(你是using.For的例子)来进行具体的特征工程。当使用物流回归时,将更多的特征(不相关)(如将连续变量结合成离散变量)拟合成离散的特征往往是suggested.Because物流回归的一个简单算法,我们试图以更好地分离样本的方式来提高维数。
我搜索了很多(也许还没有),大多数材料是“为什么/什么特性工程重要”,“缩放/标准化/连续变量”,“处理空值”或一些没有离散操作的理论评论。
为什么和如何在特定的algorithm.Or上工作
我不期待一个详细的答案,对这部分有一些深入的思考是好的。
发布于 2018-05-30 10:11:24
一般情况下,特征被设计成以简洁的表示形式保留数据集中的最佳相关信息,然后对特征进行调整,使算法能够接受它作为输入。
特征工程一般涉及到二值化、主成分分析等方法,使这些特征传递到算法中是另一个步骤,它是特征工程步骤中的一个很小的部分。调整示例:对于图像,我们可能需要像下面这样重新塑造图像,这样x0就可以指向图像
x = image.img_to_array(img)
normalise(x) // feature engineering
x = x.reshape((1,) + x.shape) // Adapting for algorithm有了这种理解,如果为数据集生成一次特征,则可以将其用于任何具有相应适应性的相关算法。
发布于 2018-02-28 11:24:58
一些算法,比如增强树(XGBoost ),很容易处理数据中几乎任何“奇怪”的东西: NaN值、离群值、不同的标度。这些算法能够自动发现数据中复杂的特征交互。但是,如果你使用一些不同的或简单的算法,比如线性回归,你必须做一些特征预处理才能得到好的结果:填充或删除NaNs和野值;对所有特征进行相似的缩放;尝试生成多项式特征等等。否则,你可能会得到奇怪或非常不准确的结果。
https://datascience.stackexchange.com/questions/28398
复制相似问题