如何使用PySpark执行一次热编码_在pyspark中使用Bucketing和一种热编码_我正在尝试对三组数据执行一次热编码 - 腾讯云开发者社区

、、、

如何将PyFlink性能与Flink + Scala进行比较？大照片。我们的目标是建立冷和热层的Lambda架构。冷(批)层将用Apache (PySpark)实现。但是对于热(流)层有不同的选择:火花流或Flink。因此，Apache是纯流的，而不是Spark的微批，我倾向于选择Apache。但我唯一关心的是PyFlink的性能。PySpark流的延迟会更少吗？它比Scala编写的Flink代码慢吗？在什么情况下更慢？提前谢谢你！

浏览 3提问于2021-11-05得票数 1

回答已采纳

1回答

如何在使用熊猫`get_dummies`和`drop_first=True`时对齐训练和测试集？

、、、

我有一个来自电信公司的数据集，它有很多分类特征。我使用pandas.get_dummies方法将它们转换为带有drop_first=True选项的热编码格式。现在如何使用预测函数，测试输入数据需要以同样的方式编码，因为drop_first=True选项也删除了一些列，如何确保编码以类似的方式进行。编码前的数据集形状:编码后的(7043, 21)数据集形状：(7043, 31)

浏览 0提问于2019-01-11得票数 0

1回答

将pyspark dataframe中列的字符串列表转换为用于一次热编码的字符串。

、、、

浏览 1提问于2019-11-22得票数 3

1回答

转换为一个热向量的字符串索引对于某些行是否为空(没有将索引设置为1)？

我有一个有一个分类列的pyspark，该列正在通过. si = StringIndexer(inputCol="LABEL", outputCol="LABEL_IDX").fit(df) df = si.transform(df) oh = OneHotEncoderEstimator(inputCols=["LABEL_IDX"], outputCols=["LABEL_OH"]).fit(df) df = oh.transform(df) 当我看数据后，我看到一些一个热编码向量看起来像..。 (1,[],[]) 我希望稀疏向

浏览 3提问于2020-01-17得票数 1

回答已采纳

2回答

PySpark:无法导入名称“OneHotEncoderEstimator”

、、

我才刚开始学习火花。目前，我正试图对数据帧中的单个列执行一次热编码。但是，我不能从pyspark导入OneHotEncoderEstimator。我已经尝试导入了OneHotEncoder (在3.0.0中被删除)，spark可以导入它，但是它缺少转换功能。下面是我的代码的输出。如果有人遇到类似的问题，请帮助。非常感谢你抽出时间！！

浏览 2提问于2020-01-27得票数 6

回答已采纳

1回答

如何解释星火OneHotEncoder的结果

、、、

我从星火博士那里读了OHE的条目，一次热编码将一列标签索引映射到一列二进制向量，最多只有一个值。这种编码允许期望连续特征(如Logistic回归)的算法使用分类特征。但遗憾的是，他们并没有对OHE的结果做出充分的解释。然后运行给定的代码： from pyspark.ml.feature import OneHotEncoder, StringIndexer df = sqlContext.createDataFrame([ (0, "a"), (1, "b"), (2, "c"), (3, "a"), (4,

浏览 2提问于2017-02-17得票数 15

回答已采纳

1回答

R:将dgCMatrix分解成训练矩阵和测试矩阵，用于XGBoost训练

、、、

首先，我是XGBoost的新手。原谅我的愚蠢。以下是一个问题：如何将dgCMatrix分解为两个矩阵(例如，训练和测试)？我的目标是使用这些矩阵进行XGBoost培训。当我使用一次热编码将所有的分类变量转换为数值变量时，我得到了dgCMatrix。我可以单独对训练数据集和测试数据集进行一次热编码吗？我尝试过dummyVars (从包插入符号)进行一次热编码，但我的R会话由于某些原因而被中止，我不知道。

浏览 0提问于2016-09-05得票数 2

回答已采纳

1回答

单-热编码到列表功能。火花缭乱

、、、、

我想准备我的数据集，供机器学习算法使用。我有一个功能，由与每个电视连续剧(我的记录)相关联的标签列表组成。是否可以直接应用单一热编码，或者首先提取上述列表中所有可能的元素？我的想法是在下一次分析中使用这个标记。下面是我的数据集和应用于它的代码的一个示例。 from pyspark.ml.feature import StringIndexer from pyspark.ml.feature import OneHotEncoder indexer = StringIndexer(inputCol="tags", outputCol="tagsIndex&#

浏览 4提问于2022-06-13得票数 0

回答已采纳

1回答

应该在特征选择之前进行一次热编码吗?我应该如何在包含分类数据和数字数据的数据集上进行特征选择？

、、

这里有个新手。我目前正在自学数据科学。我正在处理一个具有分类和数值(连续和离散)特性的数据集(26列，30244行)。目标是数值(1，2，3)。我有几个问题。我仍然没有执行任何编码或缩放技术。据我所知，由于我的分类数据是无序的，我必须执行一个热编码，对吗？由于它将增加列的数量，我希望在功能选择之后这样做。这样可以吗？如何对此数据集执行功能选择？(因为这既有数字数据，也有分类数据)，我应该先做一次热编码，然后检查相关性、t分数或诸如此类的东西吗？ (我目前只关注EDA。我脑子里没有模特) 任何帮助都是非常感谢的。谢谢!

浏览 0提问于2021-05-30得票数 4

回答已采纳

2回答

一个热编码与单词嵌入-什么时候选择一个或另一个？

、、、

我的一个同事有一个有趣的情况，他有相当多的可能性来定义一个分类特性(+/- 300不同的值)。通常的数据科学方法是执行一个单一的热编码。然而，用一个相当大的字典(+/- 300值)执行一些单一的热编码难道不是有点极端吗？在何时选择嵌入向量或一次热编码方面有什么最佳实践吗？附加信息:如果可以将新值添加到字典中，您将如何处理前一种情况。再训练似乎是唯一的解决方案，然而，使用单热编码，数据维数将同时增加，这可能会导致额外的麻烦，嵌入向量，在相反的，可以保持相同的维度，即使出现新的值。你会如何处理这样的案件？嵌入向量对我来说显然更合适，但是我想验证我的观点，并检查是否有另一种解决方案可以更好地分

浏览 0提问于2018-04-03得票数 16

回答已采纳

2回答

随机森林分类器中的单热编码

、、

是否需要对python中的随机森林分类器进行一次热编码？我想从逻辑上理解，随机林中是否可以用标签编码来处理分类特性，而不是单热编码。

浏览 4提问于2021-01-14得票数 0

2回答

单-标签热编码不需要？

、、、、

我试图从指导教程中了解经典虹膜分类问题的代码块。最后一个模型的代码块如下所示 chosen_model = SVC(gamma='auto') chosen_model.fit(X_train,Y_train) predictions = chosen_model.predict(X_valid) 在中，您可以看到X_train和Y_train中的数据类型。这些是Numpy数组。Y_train以字符串的形式包含虹膜物种。我的问题很简单:即使我没有将一个热编码的Y_train放入不同的二进制列中，该模型为什么工作呢？我从其他教程中了解到，对于多类分类，我需要首先进行一次热编码

浏览 1提问于2020-07-15得票数 4

回答已采纳

2回答

实现一种热编码

、

我已经理解了神经网络热编码背后的用法和概念。我的问题是如何实现这个概念。比方说，我有一个神经网络，它接受最多10个字母(不区分大小写)，并使用一个热编码。每个输入将是每个点的某种类型的26维向量。为了对此进行编码，我的行为是否就像我有260个输入，每个输入只显示1或0，或者有其他标准方法来实现这26维向量？

浏览 0提问于2018-08-31得票数 0

1回答

PySpark MultiLayerPercepTronClassifier似乎不起作用OneHotEncoding

、、

我正在运行一个很好的例子来使用PySpark执行分类。我创建了一个ETL管道，其中标签被转换为OneHotEncoding，但是PySpark抛出： IllegalArgumentException: 'requirement failed: Column label must be of type numeric but was actually of type struct<type:tinyint,size:int,indices:array<int>,values:array<double>>.' 稀疏单热的代码 from pysp

浏览 7提问于2019-11-06得票数 1

3回答

是否需要对此数据集进行热编码？

、、、、

下面是来自UCI数据存储库的数据集。我想要建立一个回归模型，将血小板计数作为因变量(Y)，其余作为特性/输入。然而，像贫血、性别、吸烟和DEATH_EVENT这样的分类变量很少出现在数字形式的数据集中。我的问题是：在建立回归模型之前，应该对这些变量进行“一次热编码”吗？，我还观察到值在不同的范围内，所以在应用回归模型之前，我是否应该缩放数据集？。

浏览 4提问于2020-07-06得票数 1

1回答

如何在使用pyspark+databricks时绘制相关热图

、、、、

我正在数据库中学习火花放电。我想要生成一个关联热图。假设这是我的数据： myGraph=spark.createDataFrame([(1.3,2.1,3.0), (2.5,4.6,3.1), (6.5,7.2,10.0)], ['col1','col2','col3']) 这是我的密码： import pyspark from pyspark.sql import

浏览 1提问于2019-04-06得票数 9

回答已采纳

1回答

基于PySpark数据的自定义聚合

、、、、

我有一个PySpark DataFrame，它有一个列作为一个热编码向量。我想在群后通过矢量加法来聚合不同的热编码向量。例如df[userid,action] Row1: ["1234","[1,0,0]] Row2: ["1234", [0 1 0]] 我希望输出为row：["1234", [ 1 1 0]]，因此向量是由userid分组的所有向量的总和。我怎样才能做到这一点？PySpark和聚合操作不支持向量加法。

浏览 4提问于2016-12-07得票数 12

1回答

分类特征编码

、、、、

我在做一个分类模型。我有明确和连续的数据。分类列包括两个类的列，如性别(男性、女性)和多类列(如位置)。我需要将这些编码成数值。我会做一个热编码和删除第一列，但这是不现实的，一个看不见的测试数据，可能有看不见的值。因此，我计划用句柄_ignore=‘ignore’进行一次热编码。然而，我的问题是，我害怕它在数据中呈现的多重共线性，特别是对于有两个类的列。我想出的解决方案是只在列上应用LabelEncoder，其中包含2个类，其余部分只使用一个热编码器。这样减少了多重共线性的影响。这听起来对吗？请告诉我你的想法。谢谢。

浏览 0提问于2022-01-20得票数 1

1回答

Scikit中的特征选择-混合变量类型的学习计数器问题

、、、

我目前正在尝试为我拥有的数据集进行功能选择。大约有50个变量，其中35个是绝对变量，每个变量要么是二进制变量，要么是<5个可能值。我试着在预处理之前得到15个输入变量。我试图使用递归功能消除交叉验证(RFECV)在科学工具包-学习。因为存在连续变量和范畴变量的混合，所以当我对我有两个问题的范畴进行编码时，我遇到了一些问题：，，RFE是否仍然适用于一次热编码，并且它是否准确？，如何在所选特性对应的一次热编码之前得到哪些列？例如，如果它告诉我保留第20列，我如何知道哪一列对应于预处理前的列，以便将其保留为原始的输入变量。我不打算包括预处理，但它所做的只是推测和一个热编码，没有列删除。

浏览 6提问于2020-07-19得票数 0

3回答

为什么一种热编码可以提高机器学习性能？

、、、

我注意到，当在特定的数据集(矩阵)上使用一种热编码并用作学习算法的训练数据时，与使用原始矩阵本身作为训练数据相比，它在预测准确性方面提供了明显更好的结果。这种性能提升是如何实现的？

浏览 6提问于2013-07-04得票数 132

回答已采纳

1回答

如何使用相同的处理管线来处理训练和测试数据，当它们产生不同的最终特征时

、、、、

我正试图建立一个回归模型来预测一些房屋销售，我面临着同样的处理火车数据和测试数据(这不是从培训集本身获取的验证数据)的问题。我正在执行的处理步骤如下：删除空值>50%的列，将其余包含空值的列归为，对分类列进行一次热编码。假设我的列车数据有以下列(标签提取后)(*中的列包含空值)： ['col1', 'col2', '**col3**', 'col4', '**col5**', 'col6', '**col7**','**col8**', '**col

浏览 4提问于2020-07-19得票数 0

回答已采纳

1回答

OneHotEncoding:在一个数据文件中工作，而不是在非常、非常相似的数据very中工作。

、、、、

我将OneHotEncoding函数应用于两个非常相似的数据格式。第一个数据文件如下：当我应用一个热编码时，一切都很好：但是，当我将完全相同的函数应用于这个不同但非常相似的dataframe时：发生下列错误：我不明白为什么会发生这种情况，因为dataframe 1和2都是从以前的dataframe中提取出来的(它们作为一个训练和测试df用于机器学习应用程序)。两者都是pyspark.sql数据格式。有谁可以帮我？

浏览 1提问于2020-12-29得票数 0

回答已采纳

1回答

训练中一次热编码后用回归模型预测数据点的正确形状

、、、、

我正在编写一个使用线性回归的应用程序。就我而言，sklearn.linear_model.Ridge。我很难将我喜欢的数据池以正确的形式预测到Ridge。我简要地描述了我的两个应用程序以及问题是如何出现的： 1RST应用程序：我的数据点每个只有一个特性，它们都是String，所以我使用了一个热编码，以便能够在Ridge中使用它们。之后，数据点(X_hotEncoded)有9个特性： import pandas as pd X_hotEncoded = pd.get_dummies(X) 在将Ridge安装到X_hotEncoded和标签y之后，我用以下方法保存了经过训练的模型： from s

浏览 2提问于2017-07-10得票数 6

回答已采纳

1回答

输出标签的一种热编码

、、

虽然我知道需要对输入数据中的功能进行热编码，但输出标签的热编码实际上有什么帮助呢？张量流MNIST教程鼓励对输出标签进行一种热编码。然而，CS231n(斯坦福大学)的第一个任务并没有建议使用一种热编码。选择/不选择一个热编码输出标签的理由是什么？编辑:不确定下投票的原因，但为了详细说明，我遗漏了softmax函数和交叉熵损失函数，该函数通常用于多项式分类。这与交叉熵损失函数有关吗？话虽如此，即使没有对输出标签进行热编码，也可以计算损失。

浏览 1提问于2018-07-17得票数 3

3回答

多类问题单热编码类标签的正确方法

、、、、

我有一个多类的分类问题，我们把它们称为A、B、C和D。我的数据的形状如下： X=[#samples, #features, 1], y=[#samples,1]. 具体来说，y看起来是这样的： [['A'], ['B'], ['D'], ['A'], ['C'], ...] 当我在这些标签上训练一个随机森林分类器时，它工作得很好，但是我多次读到类标签也需要一个热编码。在一个热编码之后，y是 [[1,0,0,0], [0,1,0,0], ...] 并且有这个形状 [#samples, 4] 当我尝试使用它作为分类器输

浏览 1提问于2020-04-14得票数 1

回答已采纳

5回答

如何对多个分类列执行一次热编码

、

我正在尝试对某些分类列执行一次热编码。从我正在学习的教程中，我应该在一次热编码之前做LabelEncoding。我已经成功地执行了标签编码，如下所示 #categorical data categorical_cols = ['a', 'b', 'c', 'd'] from sklearn.preprocessing import LabelEncoder # instantiate labelencoder object le = LabelEncoder() # apply le on categorical feature

浏览 0提问于2020-04-05得票数 21

回答已采纳

2回答

在Bigquery中使用pyspark将数据编码为ISO_8859_1

、、

我的pyspark数据帧中有多语言字符。在将数据写入bigquery之后，它向我显示了奇怪的字符，因为它的默认编码方案(utf-8)。如何使用pyspark / dataproc将Bigquery中的编码更改为ISO_8859_1？

浏览 0提问于2020-05-06得票数 1

1回答

只有两个值的范畴变量

、、、、

我正在处理不同的数据集，这些数据集只有的分类变量/特性，只有两个值，例如(温度=‘低’和‘高’)或(light = 'on‘和'off'或'0’和'1')。我不确定是否使用“单热编码”或标签编码“方法”来训练我的模型。我正在研究一个分类问题，并使用一些有监督的机器学习算法。我使用了“标签编码”，并取得了很好的效果。我觉得我可能做错了什么。我不确定是否应该使用“一次热编码”。对于只有两个值的范畴变量，应该使用哪种方法来转换变量？

浏览 5提问于2019-12-05得票数 0

3回答

使用连续变量和分类变量混合处理数据集

、、

当一些自变量是分类的而另一些自变量是连续的时，机器学习算法和预处理的选择如何变化？这样的数据能直接应用到使用一次热编码转换分类数据的算法中吗？例如，有2列是:年龄和种族，年龄是连续的，种族是绝对的。更新:不知道连续变量的理想桶。

浏览 0提问于2019-02-22得票数 4

1回答

星星之火规范化器丢失元数据。

、、、、

我所使用的数据集在PySpark中具有分类特性，这些数据集是索引和一次热编码的。在对管道进行拟合之后，我使用功能列的元数据提取编码的特征。当我在管道中包含一个规范化器时，我就失去了分类特性的元数据。见下面的例子： train.show() +-----+---+----+----+ |admit|gre| gpa|rank| +-----+---+----+----+ | 0.0|380|3.61| 3| | 1.0|660|3.67| 3| | 1.0|800| 4.0| 1| | 1.0|640|3.19| 4| | 0.0|520|2.93| 4| +---

浏览 1提问于2017-08-15得票数 1

回答已采纳

1回答

基于树的方法如何处理缺少的特征列？

、、、

全, 我已经培训了一个使用xgboost的模型。其中一些特征是一种热编码的货币，例如，它要么是英镑，要么是美元。似乎当我输出特征重要性时，英镑和美元分别排在第7位。现在我想用这个模型来预测澳大利亚国家是否有违约者，但是这些国家的货币是澳元。因此，当我应用我的特性工程时，它将创建一个列和一次热编码。由于我的模型没有AUD作为一个功能，它如何处理的功能，已经看不见？我对此不太清楚

浏览 0提问于2020-11-02得票数 0

1回答

我应该使用一个热编码的特征选择吗？

、、、

我进退两难，我使用的是一个热编码，我需要进行特征选择(对于分类和数值特性)，我有一些不太重要的特性，但我不想使用一些算法来完成，而不是手动的。我的问题是双重的- 我可以用什么特征选择技术来做呢？我是在一次热编码之后还是之前做的？

浏览 2提问于2020-10-08得票数 0

回答已采纳

1回答

梯度升压与编码类型

、、、

我正在查看这个材料，我发现了以下声明：对于这类模型梯度升压机算法，即使排序是任意的而不是单一的热编码，它在计算效率上也是安全的，使用任意整数编码也称为数字编码作为分类变量。你知道一些支持这一说法的参考资料吗？我知道数字编码比单热编码计算效率更高，但我想知道更多关于它们在梯度增强方法中编码无序范畴变量的等价性的假设。谢谢!

浏览 0提问于2020-07-21得票数 4

2回答

是否有一种不用一次热编码就能使用带有分类变量的决策树的方法？

、、、、

我有一个包含200+分类变量(非序数)的数据集，并且只有几个连续变量。我试过使用一种热编码，但这会使维度增加很多，结果会导致很差的分数。看起来，普通的scikit学习树只能与已被转换为一个热编码(对于非序数vars)的分类变量一起使用，如果有一种方法可以创建一棵没有一个热的树，我就是这样做的。我做了一些研究，发现有一个名为h2o的API可能很有用，但我正在设法在我的本地机器上运行它。

浏览 0提问于2019-07-05得票数 3

回答已采纳

4回答

对大量值进行一次热编码

、、、、

如果一个分类变量可以接受的值数目很大，我们如何使用一个热编码？在我的例子中，它是56个值。因此，按照通常的方法，我必须在训练数据集中添加56列(56个二进制特征)，这将极大地增加复杂性，从而增加培训时间。那我们如何处理这类个案呢？

浏览 0提问于2015-10-03得票数 8

2回答

编码多类响应变量

、、

当响应变量有多个类时，例如“晴天”、“多雨”、“多云”时，我们应该如何编码它？我知道，对于这样的预测器，我们通常使用一次热编码，如果一个预测器有太多的类，那么我们可能只使用LabelEncode。当这个多类问题发生在响应变量中时，我想我们可以只使用LabelEncode()，而可以使用一个热编码，对吗？因为如果我们使用一个热编码，那么我们将有两个变量作为响应变量，而sklearn中的机器学习算法通常期望响应变量不是向量，对吗？(我的意思是，它期望一个长的一维向量，长度等于观察到的数目，而不是2D矩阵)。但另一方面，如果我们把“晴天”、“多雨”、“多云”映射为{1,2,3}或{0,1,2}或任

浏览 0提问于2017-04-19得票数 4

1回答

卷积神经网络的图像预处理

、、

我有*.png文件，我想在卷积神经网络的上下文中将图像转换成一个热编码。我的照片是224x224。我搜索了很多在线参考资料，但我不太清楚如何将图像转换成一种热编码。我是逐行追加还是逐列追加？一种方法比另一种更好吗？一旦我创建了一个热编码向量，就会应用规范化操作，例如将向量的每个值除以256(RGB的最大值)。这样可以防止数字爆炸并导致溢出。但是，我也看到从这个值中减去了一个0.5。为什么会这样呢？这有效地在[-0.5, 0.5]之间放置了值的范围。然而，在大多数凸网中，应用了一个ReLU层，它将使所有这些值都变为零或更大。所以，我搞不懂为什么要这么做。最后，一旦我把图像转换成

浏览 4提问于2017-04-05得票数 0

回答已采纳

2回答

一个热编码复合场

、、、

我希望使用OneHotEncoder转换具有相同分类值的多个列。我创建了一个复合字段，并尝试在其上使用OneHotEncoder，如下所示：(项目1-3来自相同的项目列表) import pyspark.sql.functions as F df = df.withColumn("basket", myConcat("item1", "item2", "item3")) indexer = StringIndexer(inputCol="basket", outputCol="basketIndex&#

浏览 1提问于2018-06-30得票数 1

回答已采纳

1回答

为什么基于树的模型不需要对名义数据进行一次热编码？

、、、、

我们通常对名义数据进行一次热编码，以便更合理地计算特征或权重之间的距离，但我经常听说，基于树的模型，如随机森林模型或增强模型，不需要进行一次热编码，但我搜索过互联网，不知道，有人能告诉我为什么或指导我找出原因吗？

浏览 3提问于2017-07-17得票数 1

回答已采纳

1回答

如何有效地将数据输入TensorFlow 2.x，

、、、

我正在查看大量文本数据上的数据预处理任务，希望将预处理后的数据加载到TensorFlow 2.x中。预处理数据包含整数值数组，因为预处理步骤生成：一个热编码数组作为标签列每个数据行的令牌标记列表。变压器中使用的激活掩码因此，我一直在想，我将使用pyspark对数据进行预处理，并将结果转储到JSON文件中(因为CSV不能存储结构化数据)。到目前为止，一切顺利。但是，我在tf.data.Dataset中处理tf.data.Dataset文件时遇到了问题(或者其他任何可以与TensorFlow 2.x接口的高效扩展文件)。除了Tensorflow和PySpark之外，我

浏览 3提问于2021-03-13得票数 2

2回答

对于LSTM输入/输出，我们应该只使用一个热向量吗？

我们是否应该将输入转换为热向量，并期望一个热向量作为输出？我的意思是，我们能用像x=12，-234，54，78，12 6这样的向量来填充LSTM，并且有这样的标签向量: y=13、-230、50、80、9、7吗？(我们根本不使用单一热向量)。这样的网络能正常运作吗？还是将输入/输出转换为单热向量更好，这就是LSTM的本质？如果用一个热向量给LSTM喂食不是必要的规则，而且在我前面的问题中，我们喜欢用这样的向量来给我们的网络提供信息，那么我们是否应该再次使用softmax()函数来输出？或者我们可以使用更好的选项来解决这类问题(甚至不使用任何函数)？如果我们必须(或更好)使用softmax，我

浏览 0提问于2019-02-19得票数 0

1回答

这个热吗？

、、

阅读：它声明“使用一个热的，也就是一个K的方案来编码分类整数特征。” 这是否也意味着它只编码了一个单词列表？一种热编码的维基百科定义( ) 在自然语言处理中，一个热向量是一个1×N矩阵(向量)，用于区分词汇表中的每个单词和词汇中的每一个单词。该向量由所有单元格中的0组成，唯一用于识别单词的单元格中的单个1除外。在下面运行代码似乎LabelEncoder不是一个热编码的正确实现，而OneHotEncoder是一个正确的实现： import numpy as np from sklearn.preprocessing import MultiLabelBinarizer from num

浏览 0提问于2018-05-29得票数 1

回答已采纳

1回答

如何将一次热编码值计算成实数向量？

、、、

在Word2Vec中，我了解到CBOW和Skip-gram都会产生一个单热编码值来创建向量(cmiiw)，我想知道如何计算一个单热编码值或将其表示为实数向量，例如(来源：)：进入：请帮帮忙，我正在努力寻找这些信息。

浏览 2提问于2017-08-06得票数 2

回答已采纳

2回答

单热编码的Logistic回归

、、、、

我有一个Dataframe (data)，它的头部看起来如下所示： status datetime country amount city 601766 received 1.453916e+09 France 4.5 Paris 669244 received 1.454109e+09 Italy 6.9 Naples 我想预测status给出datetime, country, amount和city 由于status, country, city是字符串，所以我只对它们进行了

浏览 0提问于2017-06-01得票数 6

回答已采纳

1回答

在Keras中嵌入单词也是一种降维技术吗？

、、、、

我想了解embedding_dim与使用整个vocab_size的一个热向量的目的，它是从vocab_size dim降到embedding_dim维度的一个热向量，还是直觉上还有其他的效用？另外，我们应该如何确定embedding_dim号？密码- vocab_size = 10000 embedding_dim = 16 max_length = 120 model = tf.keras.Sequential([ tf.keras.layers.Embedding(vocab_size, embedding_dim, input_

浏览 2提问于2020-09-05得票数 1

回答已采纳

2回答

如何使用文本作为神经网络回归问题的输入？一篇文章会得到多少赞/拍手？

、、、

我正试图预测一篇文章或一篇文章将使用NN的数量。我有一个包含大约70,000行和2列的dataframe："text“(文本的谓词-字符串)和”like“(目标-连续int变量)。我一直在阅读NLP问题中采用的方法，但对于NN的输入应该是什么样子，我感到有些困惑。以下是我迄今所做的工作：文字清理:删除html标签，停止词，标点符号等. 下大写文字列标记化莱曼化堵住我已经将结果分配给了一个新的列，所以现在我有了"clean_text“列，上面所有的内容都应用于它。不过，我不知道该怎么做。在大多数NLP问题中，我注意到人们使用单词嵌入，但据我所理解，这是一种尝试预测

浏览 0提问于2020-08-02得票数 1

1回答

sc未在SparkContext中定义

、、、、

我的星火包是火花-2.2.0bin-hadoop2.7。我将火花变量导出为 export SPARK_HOME=/home/harry/spark-2.2.0-bin-hadoop2.7 export PATH=$SPARK_HOME/bin:$PATH 我打开了火花笔记本 pyspark 我可以用火花装载包裹。 from pyspark import SparkContext, SQLContext from pyspark.ml.regression import LinearRegression print(SQLContext) 输出是 <class 'pyspark.

浏览 0提问于2018-02-13得票数 1

回答已采纳

1回答

为什么在添加分类数据后线性回归失败？

、、

在一个训练集的基础上，我们对一些所有都是数字的属性应用了一个简单的线性回归。现在，我们在类别方面有了更多的属性，当然，我们使用了一个热编码来将类别转换为二进制属性。以这个简单的python代码为例： X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.8, test_size=0.2) model = LinearRegression(normalize=True).fit(X_train, y_train) printErrorMetrics(trueTargets=y_test, pred

浏览 0提问于2016-10-20得票数 6

回答已采纳

1回答

什么时候热编码？员工减员水平示例

、、、

我的问题如下： I在数据集中有以下分类变量来预测员工的自然减员情况. 目前，我已经完成了一个热门编码：职务级别、职务角色、婚姻状况、Over18、加班，以及为序数列保留相同的标签编码(PerformanceRating、关系满意度和JobSatisfaction)。然后，我将分裂成火车和测试集，使用随机福雷斯特分类器来预测磨损(是/否)。我是否正在进行正确的编码(一种对分类的热编码，而不对序号列进行编码)？非常感谢你帮助我解决这个疑问！

浏览 1提问于2019-01-26得票数 0

回答已采纳

2回答