腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
使用
可能
看不见
的
数据
进行
标签
编码
python
、
machine-learning
、
xgboost
我有一个包含多个列
的
数据
帧,需要对这些列
进行
标签
编码
。问题是,测试组
可能
会在未来包含看不到
的
数据
(类)。我希望这些类被标记为它们自己
的
一组,这样当我预测新
的
数据
集时,代码就不会崩溃。我尝试
使用
sklearn labelencoder,但收到了。ValueError: y contains previously unseen labels: 'rat' 我还需要<
浏览 73
提问于2020-10-13
得票数 2
1
回答
我需要在推理过程中对样本
进行
编码
吗?
machine-learning
、
deep-learning
、
encoding
我最近开始保存(腌制)我安装
的
编码
器。我
的
想法是,在推理过程中,我需要他们对以前
看不见
的
样本
进行
编码
。对
编码
数据
进行
训练模型。对新
数据
的
功能
进行<
浏览 0
提问于2021-04-29
得票数 0
2
回答
情感分析训练
数据
linear-regression
、
svm
、
sentiment-analysis
我正在对最近埃隆·马斯克收购Twitter
的
推文
进行
情绪分析。我有一个10,000个推特
的
语料库,我想
使用
机器学习方法,
使用
模型,如支持向量机和线性回归。我
的
问题是,当我想要训练模型时,我是否需要用正负两类手工标记收集到
的
10,000条推文中
的
很大一部分,才能正确地训练模型,或者我是否可以
使用
一些与此主题无关
的
其他tweet
数据
集来训练该模型以
进行
情感分析谢谢你
的
浏览 0
提问于2022-05-07
得票数 0
1
回答
精度分数警告导致score =0 sklearn
python
、
machine-learning
、
scikit-learn
、
precision-recall
我在sklearn中
使用
precision_score来评估孤立点检测算法
的
结果。我只用一个班级
进行
训练,并根据
看不见
的
数据
进行
预测。因此,一个类
的
标签
一直都是0。(我
使用
标签
编码
器来美化数字,在局部异常值因子中,它为inlier输出1,为异常值输出-1,我
使用
label
编码
器将它们
编码
为0和1,这与事实相同)但是,
浏览 59
提问于2021-02-22
得票数 0
回答已采纳
2
回答
为什么分拆前
的
标签
编码
是
数据
泄漏?
training
、
preprocessing
、
data-leakage
、
labelling
、
test
我想问一下,为什么在火车测试分裂之前
的
标签
编码
被认为是
数据
泄漏? 在我看来,事实并非如此。因为,例如,您将“好”
编码
为2,将“中性”
编码
为1,将“坏”
编码
为0。这将是相同
的
,无论是火车和测试装置。那么,为什么我们必须先拆分,然后
进行
标签
编码
?
浏览 0
提问于2022-03-01
得票数 0
回答已采纳
1
回答
分类特征
编码
machine-learning
、
classification
、
encoding
、
one-hot-encoding
、
categorical-encoding
我有明确和连续
的
数据
。分类列包括两个类
的
列,如性别(男性、女性)和多类列(如位置)。然而,我
的
问题是,我害怕它在
数据
中呈现
的
浏览 0
提问于2022-01-20
得票数 1
2
回答
在分裂成列车和测试集之前或之后应用平均
编码
python
、
categorical-data
、
encoding
我有一个包含50000个观测
数据
的
数据
集,其中列
的
基数很高。对它们
进行
编码
的
最佳方法是平均
编码
,然后
使用
正则化。我将
使用
简历而不是平滑。但是当我看到人们
使用
它
的
时候,他们会在火车和测试装置上
使用
它。应该先将
数据
集拆分为训练集和测试集,然后对其
进行
编码
,还是可以从一开始就在完整
数据
集上直接<em
浏览 0
提问于2019-05-19
得票数 3
回答已采纳
1
回答
使用
LSTM
进行
意图分类
tensorflow
、
lstm
、
text-classification
、
tf.keras
我正在尝试
使用
Tensorflow和Keras构建用于意图分类
的
LSTM模型。但每当我用30或40个时期训练模型时,我
的
前20个验证准确率为零,损失大于准确率。
浏览 0
提问于2020-08-16
得票数 1
1
回答
当我有dataType:"JSON“时,为什么我
的
Ajax请求发送"Content-Type: application/x-www-form-urlencoded”?
javascript
、
jquery
、
html
当我
使用
下面的代码来响应一个按钮点击时,它被调用了(通过
使用
console.log()验证),然而,它生成
的
http请求
的
头部是"Content-Type: application/x-www-form-urlencoded我在Ubuntu上
使用
google chrome 34.0.1847.132。Jquery版本1.8.3。 提前感谢!
浏览 0
提问于2014-05-26
得票数 3
回答已采纳
1
回答
数据
分区中
的
类
标签
machine-learning
、
classification
、
partitioning
假设将
数据
划分为训练/验证/测试集,以便进一步应用某种分类算法,而训练集并不包含完整
数据
集中存在
的
所有类
标签
--比如一些
标签
为"x“
的
记录只出现在验证集中,而不是在培训中。 这是有效
的
分区吗?以上结果
可能
会导致混淆矩阵不再是正方形,而且在算法中我们
可能
会评估一个错误,这会受到训练集中
看不见
的
标签
的
影响。第二个问题是:用训练集具有所有现
浏览 2
提问于2013-12-07
得票数 2
回答已采纳
1
回答
处理
标签
编码
的
未知值
python
、
pandas
、
scikit-learn
、
dummy-variable
、
one-hot-encoding
如何在sk-学习中处理
标签
编码
的
未知值?
标签
编码
器只有在检测到新
标签
的
例外情况下才会爆炸。我
的
问题是,在我
的
管道交叉验证步骤中,未知
标签
会出现。基本
的
单热<em
浏览 2
提问于2016-10-29
得票数 17
回答已采纳
1
回答
处理未见
的
范畴字符串火花CountVectorizer
apache-spark
、
pyspark
、
categorical-data
我见过StringIndexer在
看不见
的
标签
上有问题(参见)。 CountVectorizer有同样
的
限制吗?它如何对待不在词汇表中
的
字符串?此外,词汇表
的
大小是受输入
数据
的
影响,还是根据词汇量参数而固定?最后,从ML
的
角度来看,假设一个简单
的
分类器,如Logistic回归,不应该将一个
看不见
的
类别
编码
成一行零,这样就可以将其
浏览 0
提问于2016-09-17
得票数 3
回答已采纳
3
回答
分段聚类回归
python
、
regression
、
linear-regression
我想知道是否有
可能
将数值
数据
(超过3维)聚成不同
的
聚类,并对每个聚类
进行
曲线拟合,以获得比单一模型更高
的
精度。是否有
浏览 0
提问于2018-06-14
得票数 3
3
回答
在没有所有
可能
的
标签
的
情况下训练sklearn分类器
python
、
machine-learning
、
scikit-learn
我正在尝试
使用
scikit-学习0.12.1来: 向该分类器提供新
数据
,并检索每个观测
的
5个最
可能
的
标签
不能保证每个
可能
的
标签
都会出现在适合我
的
分类器
的
数据
中。有数百种
可能
浏览 5
提问于2013-02-22
得票数 5
回答已采纳
2
回答
让OneHotEncoder在转换步骤中管理
看不见
的
值
python
、
encoding
、
scikit-learn
我
使用
对表单
的
分类
数据
进行
编码
B=array([[1,4,7],[0,3,2]]) 假设我在.fit(A)步骤中
使用
A,在某个时刻
使用
B作为.transform(B)
的
新
数据
。如果B包含与A相关
的
看不见
的
值,则这样做会生成一个feature out of bounds error。有没有
可能
让B包含新
浏览 0
提问于2013-07-18
得票数 2
回答已采纳
1
回答
如何有效地为测试
数据
编码
多个分类列?
python-3.x
、
pandas
、
encoding
、
scikit-learn
我
使用
自定义
的
频率
编码
,并
使用
它
的
训练
数据
。最后,我把它保存为嵌套字典。对于测试
数据
,我
使用
map函数对其
进行
编码
,并将未见
的
标签
替换为0。但我需要更有效
的
方法?我已经试过用熊猫代替
的
方法了,但它不关心
看不见
的
标签
,而是把它留在原来
的
地方。此外,我非常关注时间问题,我希望在6
浏览 0
提问于2019-07-15
得票数 0
回答已采纳
1
回答
DAI如何在生产环境中处理新
的
(在培训中看不到)类别值?
python
、
mojo
、
driverless-ai
我希望确认DAI遵循类似的结构来处理它在训练中没有遇到
的
分类变量,就像在这个答案中一样。我在H2O无人驾驶AI文档中找不到它。还请说明该链接
的
某些部分是否过时(如答案中所述),以及如何处理它,如果这是不同
的
发生。请注意h2o DAI
的
版本。谢谢!
浏览 27
提问于2019-05-06
得票数 2
回答已采纳
2
回答
我可以
使用
自信
的
预测来纠正不正确
的
标签
吗?
machine-learning
、
classification
、
labels
从我
的
数据
的
一部分
的
视觉检查,我估计大约5-6%
的
标签
是不正确
的
。 我
的
分类器
的
性能仍然很好,当我对给定
的
类
进行
.95以上
的
预测时,与实际
的
标签
相比,我发现92%
的
分类器预测是正确
的
。不要对校正后
的
数据
进行
再培训,而是
使用
概率来校正验证和测
浏览 0
提问于2020-01-06
得票数 6
1
回答
API是否应该在API响应中返回UI层文本/
数据
,以便允许在旧版本
的
android/ios应用程序版本中随时
进行
更改?
android
、
ios
、
firebase
、
firebase-realtime-database
、
api-design
应该在android/ios应用程序中硬
编码
各种android/ios屏幕
的
标题、各种窗体控件
的
标签
,还是从API responsei中获取这些
数据
?这里有几个问题: 在android/ios应用程序上
使用
这些硬
编码
的
优点:干净和轻量级
的
API
数据
。API只携带
数据
部分,而不携带标题、
标签
等用户界面元素。这将节省带宽,使API变得更快。在andro
浏览 1
提问于2017-07-18
得票数 0
1
回答
如何
使用
xgboost对不同基数
的
未见
数据
进行
预测
xgboost
、
prediction
、
categorical-data
、
one-hot-encoding
我正在一个特征集X上训练一个D0回归模型,该模型包含一个具有高基数
的
特征x_k (~100)。首先,我
使用
一个热
编码
来转换x_k,然后将集合拆分为training和testing集。当我对
看不见
的
数据
做预测时,问题就出现了。在
看不见
的
数据
中,x_k
的
基数略有不同。为了更好
的
理解,说x_k在培训和测试集中
的
独特价值是\lbrace aa,ab,ac,...在
看不见
<
浏览 0
提问于2021-11-10
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Excel中的PowerQuery进行广告URL编码及解码
Sam Altman:不希望使用《纽约时报》的数据进行训练,可能会开发版权识别工具
数据集进行拆分到底什么样数据算是数据标签什么样的数据算数据样本
使用自动编码器将数据匿名化,别再让数据泄露你的隐私
Bard使用ChatGPT的数据进行训练?谷歌否认
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券