腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如果
特征
范围
太大
,
如何
对
数据
集
进行
预处理
?
我有一个包含5个
特征
的
数据
集
,每一列都在不同的数字
范围
内。我尝试过使用MinMaxScaler和StandardScaler,但是这个多类问题的准确率太低了。 ?
浏览 46
提问于2020-07-13
得票数 1
回答已采纳
2
回答
用Python
对
机器学习中的原始
数据
进行
预处理
、
、
我有一个原始的
数据
集
与9个
特征
数字和第10列是一个分类国家=法国,德国,印度,中国,墨西哥。
数据
集
有20000行。许多数值
特征
列缺少
数据
,而且没有规模。我应该预测一个
特征
值,它位于
数据
集中的第5列位置。我是否应该:
对
整个原始
数据
集
进行
预处理
,包括输入
数据
(用于丢失
数据
)、用于分类和<e
浏览 5
提问于2017-09-29
得票数 0
1
回答
二进制分类教程-
如何
对
未标记的
数据
进行
预测?
、
、
、
本教程适用于标签
数据
集
。执行下列步骤: 本教程使用一个大的标签
数据
集
,该
数据
集
被分割成一列火车和一个测试来构建模型并随后
对
其
进行
评估。我用我的火车
数据
集
处理它,没有问题。现在,我想
对
没有标签的Kaggle的一个单独
浏览 2
提问于2017-04-30
得票数 1
1
回答
训练
集
(不同形式)和测试
集
之间的
预处理
(中心、规模、归责)--什么是好方法?
、
、
、
、
我目前正在研究一个多类分类问题,有一个大型的培训
集
。然而,它有一些特殊的特点,促使我
对
它
进行
实验,导致训练
集
的几个版本(由于重新取样、删除观测等等)。我已经被教导过,你应该像
预处理
训练
集
一样
对
测试
集
进行
预处理
,也就是(为了缩放和
对
中)来测量训练
集
上的均值和标准差,并将这些值应用到测试集中。这在我看来是合理的。但是,
如果
你已经收缩/重放了训练
集</
浏览 0
提问于2015-01-29
得票数 3
回答已采纳
2
回答
如何
用不同尺度的
数据
实现
特征
向量的标准化?
、
、
、
、
假设我有一个具有不同类型的数值属性的
数据
集
。这些
特征
向量必须适合于NNs。(应归一化/标准化向量.)例如,我们的
数据
集
由足球比赛的
数据
组成。
数据
集
: -------------------------------------------------------------
浏览 0
提问于2018-07-18
得票数 1
回答已采纳
1
回答
从更大的2d集中选择一个子集?
、
、
、
、
但是忽略那些超出
范围
的(*)。| __________ ||__________________________|相反,我正在寻找一种方法,只选择附近的元素开始。也许通过某种方式
对
2d
集
进行
排序,并且只在一定
范围
浏览 2
提问于2014-05-07
得票数 4
回答已采纳
2
回答
预处理
螺旋
数据
集
以用于Logistic回归
、
、
、
因此,我需要对螺旋
数据
集
进行
分类。我一直在试验一系列算法,如KNN,Kernel SVM等。我想尝试使用
特征
工程,
预处理
等来提高Logistic回归的性能。这更像是
对
预处理
和其他
特征
工程/提取方法的学习练习,看看我可以在多大程度上改进这个特定的模型。 以下是我将用于分类的示例
数据
集
。任何关于
如何
操作
数据
集
以在Logistic回归算法中使用的建议都将是有帮
浏览 44
提问于2021-07-12
得票数 0
回答已采纳
1
回答
NB包装器是否考虑
特征
子集的大小?
、
在比较两种不同的算法与
特征
选择时,我偶然发现了下面的问题:📷 当考虑到NB
如何
对
给定的实例
进行
分类时,用于分类的
特征
子集的大小只会影响条件依赖的乘积所包含的部件的数量,但这不会产生影响,还是会影响?
浏览 0
提问于2014-12-30
得票数 2
1
回答
如何
在实际中使用Mahout分类器?
、
、
、
我想使用Apache Mahout和朴素贝叶斯分类器
对
一堆文档
进行
分类。我做了所有的
预处理
,并将训练
数据
集
转换为
特征
向量,然后训练分类器。现在我想把一堆新的实例(待分类的实例)传递给我的模型,以便
对
它们
进行
分类。 然而,我的印象是,必须
对
我的待分类实例和训练
数据
集
一起
进行
预处理
?
如果
是这样,为什么我可以在构建模型时没有要分类的实例的真实场景中使用
浏览 1
提问于2015-07-08
得票数 0
1
回答
如何
进行
实时
数据
的
特征
工程?
、
、
、
、
我用以下步骤建立了一个很好的线性回归模型: 我的问题是,
如果
我们在生产环境中使用这个模型,那么我们
如何
进行
实时
数据
的
特征
工程,因为这个模型是用
特征
归一化和缩放的来建立的,那么
如何
对
实时
数据
进行
规范
浏览 2
提问于2017-03-01
得票数 0
1
回答
如何
规范训练和测试用的单词袋?
、
我试图根据NLP中的单词包模型
进行
分类。 训练
数据
和测试
数据
有不同的词包,因此
特征
的个数不同,所以我们不能使用knn这样的分类方法。我把训练
数据
和测试
数据
合并在一起,建立了tf-国防军矩阵.这就解决了上述不同字袋
浏览 10
提问于2017-07-07
得票数 0
2
回答
mlr3 -
对
新
数据
应用
预处理
、
假设我
对
用于训练Learner的训练
集
应用了以下
预处理
preprocess <- po("scale", param_vals = list(center = TRUE, scale = TRUE)),param_vals = list(method = "one-hot")) 我想用predict(Learner, newdata = pred, predict_type="prob")命令预测
数据
帧
如何
将训练
集
上使用
浏览 32
提问于2020-10-06
得票数 0
回答已采纳
1
回答
在python中
进行
手写字符识别的步骤是什么?使用opencv和sci工具包学习?
、
、
、
、
我知道三个步骤,
预处理
,
特征
点提取和分类。
如何
进行
预处理
?
如何
在opencv中提取
特征
点?
如何
实现这一点? 请帮忙..。
浏览 3
提问于2016-02-13
得票数 4
回答已采纳
1
回答
如何
对
音频
进行
预处理
以
进行
分类?
、
、
、
我目前正在使用TensorFlow的Python开发一个音频分类器,使用UrbanSound8K
数据
集
并试图区分10个相互排斥的类。音频文件长达4秒,包含176400个
数据
点,这将导致严重的内存问题。
如何
对
音频
进行
预处理
以减少内存使用量?
如何
从音频中提取更有用的
特征
(使用卷积和池)?
浏览 4
提问于2017-02-19
得票数 2
回答已采纳
1
回答
递归神经网络(LSTM)的PCA -我是否也要用PCA作为目标变量?
、
、
、
、
我有一个包含3目标变量和n
特征
变量的季节性时间序列
数据
集
。在将
数据
输入到简单的LSTM之前,我尝试应用PCA算法。我所做的工作如下: features)Apply 拆分列车验证-测试列车
数据
集
的标准标量器(Forcemean=0& std=1) (包括目标和目标PCA,仅针对列车的
特征
,通过第三步的PCA矩阵)验证和目标中的
特征
变量:
如何
处理目标的验证和目标的测试variables?...多神经网络
预处理
和构
浏览 6
提问于2021-11-09
得票数 0
回答已采纳
1
回答
Sklearn回归问题
我尝试用一个回归模型拟合
数据
矩阵X到输出向量y。我有一些训练
数据
和一些测试
数据
,其中的分数是RMSE。实际上,我不知道
如何
取得更好的成绩,所以我在这个论坛上请求另一种方法。我已经尝试过KernelRidge、线性回归、SVR和其他核函数、神经网络,但它们都给出了更差的结果。
浏览 0
提问于2017-03-28
得票数 -1
1
回答
从
特征
集中选择集成
特征
、
、
、
我有一个关于集合
特征
选择的问题。 我的
数据
集
由1,000个样本和大约30000个
特征
组成,它们被分类为标签A或标签B。我想做的是挑选一些可以有效地
对
标签
进行
分类的
特征
。我使用了三种方法,单变量方法(皮尔逊系数),套索回归和SVM-RFE(递归
特征
消除),所以我从它们中得到了三个
特征
集。我使用python scikit-learn
进行
特性选择。然后我在考虑集成
特征
选择方法,因为
特征
的
浏览 2
提问于2015-12-11
得票数 3
1
回答
分类中
特征
的重要性是选择聚类
特征
的好方法吗?
、
、
、
、
我有一个包含许多特性的大
数据
集
(70)。通过
进行
预处理
(删除有太多缺失值的
特征
和与二进制目标变量无关的
特征
),我得到了15个
特征
。现在,我使用决策树
对
这15个
特征
和二进制目标变量执行分类,以便获得
特征
重要性。然后,我会选择高度重要的
特征
作为我的聚类算法的输入。在这种情况下使用特性重要性有意义吗?
浏览 0
提问于2021-03-16
得票数 1
回答已采纳
1
回答
标准化/分解培训/测试一起还是分开?
、
X
数据
的两个常见的ML
预处理
步骤是标准化(例如,缩放到单位方差)和分解(将
特征
映射到一个新空间AIUI)。在ML管道中实现这些步骤(包括培训/测试/验证
集
)的两种可能方法是: 1)
对
整个训练/测试/验证X
数据
集
进行
标准化/分解,然后分解成训练/测试
集
,并使用最小误差模型
对
验证
集
进行
预测。( ii)分成训练/测试<
浏览 2
提问于2015-05-12
得票数 1
回答已采纳
1
回答
非线性
数据
的k+降维
、
、
、
我试着在一个复杂的模拟
数据
集
上使用k-NN。numpy数组是(1000,100),因此有很多尺寸。在运行k-NN
进行
训练/分类之前,我需要对
数据
集
进行
预处理
/转换。PCA不起作用,因为所有
特征
的方差几乎是相同的。作为csv的
数据
在这里可以作为gist:获得。在绘制
数据
时,它看起来像是一个3d球形结构(以下是使用“超级工具”的屏幕截图):
对
如何
进行</e
浏览 1
提问于2017-07-01
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券