标准化类别值

、、

现在我正在处理开放的数据集，其中一个任务是‘标准化’值。我们只关心“年龄”、“性别”、“种族”、“种族”和“国家”属性。还有许多其他国家/地区在不同的数据集中具有不同的表达式值。我们的目标是将所有这些值‘转换’为'US‘。然而，我不知道在其他数据集中是否存在'US‘的其他表达式。所有数据集的存储为2.3 TB。我不能迭代所有数据集来获得'US‘的所有不同表达式，然后再次迭代以转换所有值。有没有什么工具可以检测和转换这些东西呢？现在一切都在Python之下。最

浏览 35提问于2020-12-28得票数 1

2回答

Pandas Dataframe中基于类别的规范化

、

标准化是为整个colum完成的，但是我们如何在Pandas Dataframe中进行基于类别的规范化。相反，我们怎么能有标准的高度值，其中最小和最大分别取每个Std。

浏览 2提问于2020-02-29得票数 0

回答已采纳

1回答

对客户数据中的类别购买进行聚类

、、

我正在尝试根据消费、订单频率、订单广度和他们在每个类别中购买的百分比(大约20%)对一组客户进行聚类。这可能是一个简单的答案，但我不知道是否应该标准化(减去平均值并除以sd) %类别的购买列。当我不标准化时，我可以得到4-5个主成分(使用SVD)解释的大约90%的方差，但当我标准化每列时，对于相同数量的主成分，我只能得到大约40%的方差。我担心的是，因为每个列都是相关的，所以我正在通过标准化来消除这种关系。同时，我担心不标准化会导致我标准化的数据中的

浏览 0提问于2017-11-14得票数 0

4回答

MySQL中的查找字段

我为MySQL数据库设置了一组类别，这些类别不会有太多变化，但有时可能会发生变化。(可能有十几种选择) 对于这种情况，答案基本上是多项选择，我是应该在主表中使用文本字段，然后在PHP中限制答案，还是应该创建一个单独的表来保存查找值，然后将category表中的id存储在主表中？正在寻找标准化最佳实践:)

浏览 0提问于2010-11-11得票数 0

回答已采纳

2回答

高图表-类别数据值代表不同的点？

、、

在高级图表中，我有一堆简单的、标准化的类别数据。data: [2, 4, 4] name: 'sample element 4', }] 高级特性:当悬停在单个值点上时，对应的样例元素的所有点之间的线应该重新出现，从而使这些值之

浏览 6提问于2014-10-13得票数 0

回答已采纳

1回答

Nivo条形图数百次调用标签函数

、、

我已经通过将类别平衡除以类别目标来标准化数据。示例数据。我不希望将这些值用作图表上的标签。我计划使用实际的余额值作为标签。我有一个端点，它将返回某个类别的余额，并尝试使用该值：使用POC函数为：日志消息被记录500+次。

浏览 31提问于2020-03-15得票数 0

回答已采纳

1回答

预测分类和数值输出的模型

、、、

还有一个与每个类别相关的数值级别。例如A是100，B是50，所以A(100)，B(50)，A(100)，B(50)，研究了一下，还没有发现类似课题的相关研究。

浏览 2提问于2017-05-17得票数 1

1回答

是否有办法将SVMLight多类分类中的判别值转换为概率分数？

、、

我使用SVM轻型多类分类器来训练四类分类器.在分类阶段，分类器输出4个类别的预测标签和分数。正如支持向量机轻型网站所说，这些分数是“每个k类的判别值”。我想向用户显示每个类的概率值。所以我想知道是否有什么数学技巧或其他方法可以将这些值“转换”成概率值，或者至少在0到1之间转换成一个标准化的分数？

浏览 4提问于2014-04-09得票数 0

回答已采纳

1回答

按同一类别不同日期的值划分列中的行类别

、、

我有数百万行的数据集，大约有400个类别。每个类别都包含2019年、2020年和2021年的每周数据。我正在尝试通过将列值的周值除以2019年的相应周值来标准化列值。该列包含来自不同类别的数据。np.nan df.loc[(df['category']==category) & (df['week']==week), 'value'] = y 代码基本上是创建一个新列，

浏览 25提问于2021-07-26得票数 0

回答已采纳

1回答

熊猫类别标准化

、、

我想规范销售数据的多个销售点(POS)，产品和周。dataframe如下所示：0 1 car 250 12 2 car 300 1目标是规范每个销售点和产品之间的0,1之间的数据，例如，与特定产品和特定销售点内的最小和最大销售有关的最小和最大数据。我想我可以为每个组合创建一个列(例如下面的例子)，然后对每个列进行规范化，但是我正在寻找一个更优雅的解决方案。 pos

浏览 0提问于2018-11-05得票数 0

1回答

神经网络有正态分布的数据重要吗？

、、、、

因此，与数据相关的标准问题之一是将其规范化，并将其标准化，使其具有正态分布的数据，平均值为0，标准差为1，对吗？但是，如果数据不是正态分布的呢？前馈网是非参数的，对吗？因此，如果是的话，标准化数据仍然很重要吗？为什么人们会把它标准化呢？

浏览 0提问于2015-10-14得票数 7

回答已采纳

1回答

如果我在整个数据集上使用StandardScaler，那么fit还是StandardScaler？

、、

我有一个名为的数据，并按以下方式扩展数据：scaler.fit(features)standardized_features.shape然后，我将培训和测试分成以下几个部分： df_idx = df[df.Date == '1996-12-01'].i

浏览 5提问于2021-01-13得票数 0

回答已采纳

2回答

如果列中的字段值不存在于另一个表中，如何将该字段值更改为“other”？

、

我有一个没有很好标准化的Oracle数据库，所以它允许一些字段中的自由表单条目，如果设计得更好，这些字段应该被外键输入到查找表中。现在，企业已经决定在如下所示的表中存储已批准的类别，并且在任何使用类别的查询中，如果该值不在已批准的类别表中，则应该显示为“Other”。TABLE: ApprovedCategories1 cat1我已经知道了如何用大小写替换这些值，但只有在硬编码所选内容中的类别<

浏览 1提问于2018-04-05得票数 0

回答已采纳

1回答

清理对象文本并将其标准化为类别(python、大熊猫)

、、、、

在热编码之前，我必须将几个对象列标准化为类别，然后再在聚类算法中使用剩下的几个类别。我想把这些值转换成“牛奶”、“水”、“苏打水”、“其他”。如何使用通配符(*/%/other)和/或other/if语句来有效地执行此操作？这能覆盖原始值吗？

浏览 1提问于2021-09-14得票数 0

1回答

这个正常化做得对吗？

、

在这个正常化问题上当我们根据给定的站点将其转换为1NF时，答案是有必要取消电影类别吗？另外，当我们在2NF中转换它时，电影表不包含类别列。电影名称和它的类别之间不是有过渡性的依赖吗？ 标准化是什么? 1NF，2NF，3NF&BCNF？

浏览 0提问于2017-05-24得票数 3

回答已采纳

2回答

分类和数值混合特征的机器学习算法

我有一个包含1000个样本的训练数据集。它包含大约50个特征，其中30个是分类特征，其余是数字/连续特征。哪种算法最适合处理分类特征和连续特征的混合特征集？

浏览 0提问于2016-11-05得票数 3

3回答

我需要标准化我的一个热编码标签吗？

、

我试图做一个简单的softmax回归，其中我有特性(2列)和一个热编码的标签向量(两个类别:左=1和右= 0)。我需要标准化的只是特征向量还是标签向量？下面是我如何标准化:标签=(标签-labels.mean()/ (labels.max() -labels.min()如果我的预测实际上给了我左或右，那么在识别(字符串)之后，我该如何识别呢？

浏览 0提问于2019-07-26得票数 5

1回答

使用SGDclassifier的predict_proba进行多类分类的多类分类置信度得分

、、、、

我正在使用SGDClassifier中的Logistic回归来执行~10k类别的多类分类。为了获得预测结果的置信度分数，我使用了predict_proba函数。但是我得到了正确和错误预测的预测概率值0.00026091,0.00049697,0.00019632。请建议对分数进行归一化的方法，以便我可以通过过滤概率值来考虑结果

浏览 14提问于2020-03-02得票数 0

1回答

如何使用Amazon Personalize根据分类来预测用户对项目的亲和度？

、、

内容通过类别和标签进行分类。每个项目的参与度可以是二进制(点击)或0-1浮点值(标准化参与时间长度)。我应该如何训练一个模型，使我能够有效地为每个用户进行个性化？我不需要实时访问推荐。理想情况下，我会每周用新的点击流数据重新训练模型，并用亲和度分数批量下载描述每个用户的顶级类别和标签的数据。谢谢。

浏览 10提问于2020-09-17得票数 0

1回答

如何对来自不同来源的DICOM图像进行标准化？

、

图像具有不同的像素值(对于某些图像，值范围从0到4,000:类别1)，对于其他图像(0到16000:类别2)。来自第二类的绘图图像具有这样的外观(请注意，我们在超声内部几乎看不到任何东西)。对于类别1，图像是清晰的。我已经测试了到HU单位的转换，但是从所有图像读取的斜率和截距分别为1和0，因此没有任何变化。

浏览 1提问于2019-06-05得票数 2

点击加载更多