使用pyspark中某列中出现的最后一个ID为该列生成ID，而不是null

在使用pyspark中，可以通过以下步骤来实现根据某列中出现的最后一个ID为该列生成ID的需求：

导入必要的库和模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, last, when
from pyspark.sql.window import Window

创建SparkSession：

spark = SparkSession.builder.getOrCreate()

加载数据并创建DataFrame：

data = [(1, "A"), (2, "B"), (3, "A"), (4, "C"), (5, "B"), (6, "A")]
df = spark.createDataFrame(data, ["ID", "Category"])
df.show()

输出结果：

+---+--------+
| ID|Category|
+---+--------+
|  1|       A|
|  2|       B|
|  3|       A|
|  4|       C|
|  5|       B|
|  6|       A|
+---+--------+

使用窗口函数和条件表达式生成新的ID列：

windowSpec = Window.partitionBy("Category").orderBy("ID")
df = df.withColumn("NewID", when(last(col("ID")).over(windowSpec).isNull(), col("ID")).otherwise(last(col("ID")).over(windowSpec)))
df.show()

输出结果：

+---+--------+-----+
| ID|Category|NewID|
+---+--------+-----+
|  1|       A|    3|
|  2|       B|    5|
|  3|       A|    3|
|  4|       C|    4|
|  5|       B|    5|
|  6|       A|    3|
+---+--------+-----+

在上述代码中，我们首先使用窗口函数Window.partitionBy("Category").orderBy("ID")对数据进行分区和排序，然后使用last(col("ID")).over(windowSpec)获取每个分区中最后一个ID的值。接着，使用条件表达式when(last(col("ID")).over(windowSpec).isNull(), col("ID")).otherwise(last(col("ID")).over(windowSpec))判断最后一个ID是否为null，如果是null，则使用原始ID值，否则使用最后一个ID值。最后，将生成的新ID列添加到原始DataFrame中。

这种方法适用于需要根据某列中出现的最后一个ID为该列生成ID的场景，例如在某个时间序列数据中，根据时间顺序为每个类别生成唯一的ID。

腾讯云相关产品和产品介绍链接地址：

腾讯云Spark：腾讯云提供的大数据计算引擎，可用于处理海量数据和进行分布式计算。
腾讯云数据仓库：腾讯云提供的数据仓库解决方案，可用于存储和分析大规模数据。
腾讯云数据计算服务：腾讯云提供的数据计算服务，包括数据集成、数据开发、数据质量、数据分析等功能。
腾讯云数据库：腾讯云提供的数据库服务，包括关系型数据库、NoSQL数据库等多种类型。
腾讯云服务器：腾讯云提供的云服务器服务，可用于部署和运行各种应用程序。
腾讯云安全产品：腾讯云提供的安全产品和解决方案，包括云安全、网络安全、数据安全等方面的保护措施。
腾讯云人工智能：腾讯云提供的人工智能服务和工具，包括图像识别、语音识别、自然语言处理等功能。
腾讯云物联网：腾讯云提供的物联网平台，可用于连接和管理物联网设备。
腾讯云移动开发：腾讯云提供的移动应用开发平台，包括移动应用开发工具、云存储、推送服务等功能。
腾讯云对象存储：腾讯云提供的对象存储服务，可用于存储和管理大规模的非结构化数据。
腾讯云区块链：腾讯云提供的区块链服务，可用于构建和管理区块链应用。
腾讯云元宇宙：腾讯云提供的元宇宙解决方案，可用于构建虚拟现实和增强现实应用。

访问PySpark数据帧中的特定项目

、、

如何访问PySpark数据帧中某列的某个索引处的值?例如，我想访问一个名为"Category“的列的索引5处的值。我如何在PySpark语法中做到这一点呢？

浏览 2提问于2018-03-07得票数 10

回答已采纳

3回答

SQL条件列存在

、、

如果视图中存在某列，我是否可以选择该列，但如果该列不存在，是否可以忽略该列？ SELECT CASE WHEN EXISTS(SELECT 1 FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_NAME = 'MyView' AND COLUMN_NAME = 'MyColumn') THEN MyView.MyColumn ELSE NULL END AS [Sometimes] FROM MyView 现在，这将返回一个“MSG207 Inv

浏览 0提问于2010-12-07得票数 4

回答已采纳

1回答

在Pyspark中的布尔列中填充空值

、、、、

我有一个有一些布尔列的dataframe，这些列有时看起来是空的，就像其他数据类型的其他列一样。我需要将这个dataframe转换为一个RDD，其中每一行都被转换成一个JSON。为此，我使用下面的代码 df.toJson().zipWithIndex() 但是，当某列的行为null时，该列不会转换为键，这给我留下了不匹配的模式。我已经尝试过处理作为字符串的列的df.na.fill('').toJson.zipWithIndex()，但是当列是int或boolean类型时，问题仍然存在。即使值为null，如何将所有列作为json中的键保存？谢谢!

浏览 19提问于2022-02-02得票数 1

2回答

PySpark:如何在列中或列中分组

、

我想在PySpark中进行分组，但是这个值可以出现在多个列中，所以如果它出现在所选列中的任何一列中，那么它将被分组。例如，如果我将这个表放在Pyspark中：我想总结一下每个身份证的访问和投资，结果是：请注意，ID1是前三列中有ID1的行0、1、3的总和，ID1访问= 500 + 100 + 200 = 800。ID2是行1、2等的总和。为了简单起见，我的例子是一个简单的dataframe，但在实际中是一个大得多的df，有很多行和变量，还有其他操作，而不仅仅是"sum“。这对熊猫来说是不可能的，因为它太大了。应该在PySpark OBS2:我用熊猫打印了表格

浏览 4提问于2019-09-20得票数 1

回答已采纳

2回答

如果组中存在非空项，如何删除重复项和空项？

、、、

下面的DataFrame应该根据标志列进行过滤。如果基于列id和cod的组没有任何与None值不同的行，则只需要维护一个唯一的行，否则，必须删除列标志<code>E 211</code>中的None值行。 import pyspark from pyspark.sql import SparkSession from pyspark.sql.window import Window from pyspark.sql.functions import col, row_number,max spark = SparkSession.builder.appName(

浏览 3提问于2022-06-30得票数 0

1回答

SPARK :在目录下读取的文件和一些缺少标题列的文件

、

浏览 0提问于2018-04-27得票数 0

3回答

Python/pyspark数据框重新排列列

、、

我有一个python/pyspark格式的数据框，其中包含列id、time、city、zip等...... 现在，我向该数据框添加了一个新的列name。现在，我必须以这样的方式排列列：name列在id之后我已经做了如下工作 change_cols = ['id', 'name'] cols = ([col for col in change_cols if col in df] + [col for col in df if col not in change_cols]) df = df[cols] 我得到了这个错误 pyspark.

浏览 0提问于2017-03-21得票数 46

回答已采纳

1回答

Kibana使用Elastic Search，如何统计特定查询的出现次数？

、

当我在Kibana中输入查询时，它会显示查询在特定时间段内出现的次数。我想确切地计算一下在某段时间内该消息出现的次数。是否有一个弹性搜索查询可以将消息出现次数聚合到单个总计数中？

浏览 0提问于2015-09-04得票数 2

2回答

PySpark:根据不同列中某个值的最后一次出现情况填充列

、、

使用PySpark，我正在寻找一种根据列Status中的值填充列Code的方法。df按ID列排序。唯一有意义的Code值是A (Good), B (Bad), C (Neutral)。当这些值中的一个出现时，我希望每一行都有相同的Status值，直到出现任何其他重要的Code值。这是所需的带有新添加的Status列的df输出： +----+------+---------+ | ID | Code | Status | +----+------+---------+ | 1 | A | Good | | 2 | 1x4 | Good | | 3 | B

浏览 25提问于2019-05-13得票数 1

回答已采纳

2回答

用于修改列数据类型的Sql脚本

有没有人知道一个脚本来改变表中某列的数据类型，该表是多个数据库的一部分？例如：我在20个不同的数据库中有一个用户表，其中包含相同的列。我想更改该表中某一列的数据类型。

浏览 0提问于2011-01-05得票数 0

回答已采纳

1回答

获取最后插入行的复杂主键

、、

考虑下表，该示例完全是随机的 CREATE TABLE `test` ( `key` int(11) NOT NULL, `id2` varchar(255) NOT NULL, `id3` varchar(255) NOT NULL, `text` varchar(255) NOT NULL, PRIMARY KEY (`key`,`id2`,`id3`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8; 我需要插入并获得插入行的唯一标识符，这将是复杂的主键。如果我有一个列主键，我将使用PDO::lastInsertId，但如果在本例中使用它，则

浏览 2提问于2015-10-21得票数 1

回答已采纳

1回答

从满足条件的最新行中结转数值

、

我有一个pyspark dataframe，它看起来像(一个大得多的版本)： +---+---+----+----+ | id| t|type| val| +---+---+----+----+ |100| 1| 1| 10| |100| 2| 0|NULL| |100| 5| 1| 20| |100| 8| 0|NULL| |100| 12| 0|NULL| |100| 20| 0|NULL| |100| 22| 1| 30| |200| 5| 1| 40| |200| 11| 0|NULL| |200| 19| 1| 50|

浏览 9提问于2020-12-03得票数 0

1回答

基于其他列更新列的Pyspark行

、

我有一个data frame在pyspark，如下所示。 df.show() +---+----+ | id|name| +---+----+ | 1| sam| | 2| Tim| | 3| Jim| | 4| sam| +---+----+ 现在，我向df添加了一个新列，如下所示 from pyspark.sql.functions import lit from pyspark.sql.types import StringType new_df = df.withColumn('new_column', lit(None).cast(StringType()))

浏览 1提问于2018-05-02得票数 0

回答已采纳

2回答

如何使用monotonically_increasing_id连接两个没有公共列的pyspark数据帧？

、、、

我有两个相同行数的pyspark dataframe，但它们没有任何公共列。因此，我使用monotonically_increasing_id()将新列添加到这两个列中 from pyspark.sql.functions import monotonically_increasing_id as mi id=mi() df1 = df1.withColumn("match_id", id) cont_data = cont_data.withColumn("match_id", id) cont_data = cont_data.join(df1,df1.ma

浏览 2提问于2017-06-03得票数 1

1回答

如何检测pyspark中的单调下降

、、、

我正在使用spark DataFrame，我希望检测来自特定列的任何值，其中该值不是单调递减的。对于这些值，我想根据排序条件将它们替换为以前的值。下面是一个概念性的示例，假设我有一个值为[65, 66, 62, 100, 40]的列。值"100“不遵循单调下降趋势，因此应替换为62。因此，结果列表将是[65, 66, 62, 62, 40]。下面是我创建的一些代码，用于检测必须替换的值，但是我不知道如何用前一个值替换该值，也不知道如何忽略lag中的初始null值。 from pyspark import SparkContext from pyspark.sql import SQ

浏览 15提问于2020-02-14得票数 1

回答已采纳

1回答

从字典列表创建pyspark dataframe

、、、

我有下面的字典列表结果= [ { "type:"check_datatype", "kwargs":{ "table":"cars","column_name":"vin","d_type":"string" } }, { "type":"check_emptystring", "k

浏览 4提问于2021-03-30得票数 0

2回答

无法替换空值的星火数据帧

、、、

下面的代码工作得很好，但是如果任何一个字段都是NULL ( SAL1, SAL2, SAL3, SAL4, SAL5列中的5列)，则相应的TOTAL_SALARY将以NULL的形式出现。看起来有些空条件或火花udfs需要创建，请您在这方面提供帮助。投入： NO NAME ADDR SAL1 SAL2 SAL3 SAL4 SAL5 1 ABC IND 100 200 300 null 400 2 XYZ USA 200 333 209 232 444 第二个记录的和很好，但是在第一个记录中，由于SAL4中的null，输出也是null。 from pyspark.she

浏览 1提问于2018-10-15得票数 0

回答已采纳

1回答

用多行列读取文本文件

、、、、

我有以下格式错误的txt文件： id;text;contact_id 1;Reason contact\ \ The client was not satisfied about the quality of the product\ \ ;c_102932131 我试图通过以下方法来使用pyspark加载该文件： df = sc.read\ .option("delimiter", ";")\ .option("header", "true")\ .option("inferSchema", "true&

浏览 5提问于2020-04-26得票数 1

4回答

如何在server 2008中生成随机布尔值？

、、

我为某所大学写了一个数据库，有一个表，名为 Contact_Assign的参数是： Is_Instructor UD_BOOLEAN NOT NULL, Is_TeacherAssistant UD_BOOLEAN NOT NULL, Is_Student UD_BOOLEAN NOT NULL, Registration_ID UD_ID NOT NULL, Contact_ID UD_ID NOT NULL, 现在，我想在这个表中插入虚拟数据，但是我不知道如何对布尔参数这样做。 PS。UD_BOOLEAN是

浏览 4提问于2013-12-15得票数 18

回答已采纳

2回答

用于获取derby数据库表中某列的最后一个值的查询

、、、

我想获取derby db表中某列的最后一个值。有人能帮我吗？

浏览 3提问于2013-02-28得票数 0

1回答

基于pyspark的均值漂移聚类

、、、、

我们正在尝试将一个普通的python代码库迁移到pyspark。议程是对数据帧(以前是pandas，现在是spark)进行一些过滤，然后按user-ids对其进行分组，最后在顶部应用meanshift集群。我在分组数据上使用pandas_udf(df.schema, PandasUDFType.GROUPED_MAP)。但现在，最终输出的表示方式出现了问题。假设我们在输入数据帧中有两列：user-id和location。对于每个用户，我们需要获取所有集群(在location上)，只保留最大的一个，然后返回其属性，这是一个3维向量。让我们假设3元组的列是col-1、col-2和col-3。

浏览 11提问于2019-05-14得票数 0

回答已采纳

3回答

Google电子表格最后X行

我正在使用Google电子表格中的图表来绘制过去90天的数据。但是，当添加新数据时，它超出了当前选择的图表范围A1:A90。有没有一个函数可以用来选择Google电子表格某列中的最后90行数据？

浏览 0提问于2013-08-01得票数 10

回答已采纳

2回答

如何在pyspark中在groupby之后进行条件聚合？

、

我试图根据pyspark数据格式中的ID列对列进行分组，并根据另一列的值对列进行求和。为了举例说明，请考虑以下虚拟数据格式： +-----+-------+---------+ | ID| type| amount| +-----+-------+---------+ | 1| a| 55| | 2| b| 1455| | 2| a| 20| | 2| b| 100| | 3| null| 230| +-----+-------+---------+ 我想

浏览 1提问于2019-06-13得票数 0

回答已采纳

1回答

根据update_time将数据帧内的多个spark行按ID合并为一行

我们需要使用Pyspark将基于ID的多行合并到单个记录中。如果该列有多个更新，那么我们必须选择对它进行了最后一次更新的那个。请注意，NULL表示没有对该实例中的列进行更新。因此，基本上我们必须创建一行，其中包含对记录所做的合并更新。因此，例如，如果这是数据帧... 寻找类似的答案，但在Pyspark ..Merge rows in a spark scala Dataframe ------------------------------------------------------------ | id | column1 | column2

浏览 18提问于2021-10-14得票数 0

2回答

如何在android编程中获取sqlite数据库中某列的一行文本？

、、

我想要获取SQLite中某列中某行的文本。例如，我想获取名为title的列中第十行的文本。换句话说，我希望获得title列第十行文本。该怎么做呢？请帮帮我。谢谢你。下面是我的示例代码： final SQLiteDatabase mydb = new MyDatabase(EndicActivity.this).getWritableDatabase(); final Cursor c = mydb.rawQuery("select * from conteudos", null);

浏览 27提问于2019-03-08得票数 0

2回答

删除特定列的空值行，同时在pyspark中执行partitionBy列

、、、、

我有一个这样的电火花数据仓库： +-----+---+-----+ | id| name|state| +-----+---+-----+ |111| null| CT| |222|name1| CT| |222|name2| CT| |333|name3| CT| |333|name4| CT| |333| null| CT| +---+-----+-----+ 对于给定的ID，即使列" name“是空的(如果它的ID不重复)，但如果ID是重复的，我想保留该记录，但是如果ID重复，那么我想检查name列，确保它不包含该ID中的重复项，如果"name”仅

浏览 1提问于2020-05-06得票数 1

回答已采纳

3回答

在将JSON文件读入PySpark DataFrame之前从JSON文件中过滤垃圾

、、

我有以下文件，它应该是一个JSON文件，但是它在实际的JSON内容之前有一个字符串(它们被一个选项卡隔开！)： string_smth\t{id:"str", num:0} string_smth1\t{id:"str2", num:1} string_smth2\t{id:"str3", num:2} string_smth3\t{id:"str4", num:3} 对所有列执行以下操作返回null： import pyspark.sql from pyspark.sql.types import * schema = Str

浏览 0提问于2018-02-16得票数 1

回答已采纳

2回答

PySpark:检查列中的值是否类似于字典中的键

、、

我想使用包含关键字的字典，并检查pyspark df中的一列，看看该关键字是否存在，如果存在，则在新列中返回字典中的值。问题看起来是这样的； myDict = { 'price': 'Pricing Issue', 'support': 'Support Issue', 'android': 'Left for Competitor' } df = sc.parallelize([('1','Needed better Support'),('2'

浏览 0提问于2021-03-29得票数 0

1回答

Pyspark -如何在匹配后删除字符

、、、

我有pyspark数据框架，其中我有一个类似这样的列。我想从字符串中删除/ccc。我在pyspark中尝试了几件事，但都不起作用。我需要为此使用UDF吗？ /aaa/bbb/ccc 在python中，我可以这样做。 %python "/".join("aaa/bbb/ccc".split("/")[:-1]) 我试着跟着他。但是，它会生成null from pyspark.sql.functions import concat_ws, udf, col def get_path(str): "/".join(str.sp

浏览 29提问于2021-08-06得票数 0

1回答

一种在pyspark数据框中进行列透视和分组的有效方法

、

我有一个如下所示的pyspark数据框。 df = spark.createDataFrame([(1,'ios',11,'null'), (1,'ios',12,'null'), (1,'ios',13,'null'), (1,'ios',14,'null'),

浏览 0提问于2018-06-20得票数 0

回答已采纳

1回答

对行中的DataFrame进行排序并获得排名

、、

我有以下PySpark DataFrame： +----+----------+----------+----------+ | id| a| b| c| +----+----------+----------+----------+ |2346|2017-05-26| null|2016-12-18| |5678|2013-05-07|2018-05-12| null| +----+----------+----------+----------+ 我的理想输出是： +----+---+---+---+ |id |a

浏览 0提问于2018-07-12得票数 1

1回答

约束以检查某列是否为null或引用其他列？

、、

是否有可能(在PostgreSQL中)设置一个约束，说明某列必须为空或包含来自另一列的值，在另一个表中？换句话说，要将检查约束与外键约束结合起来？我想要定义的是，该列应该为null，或包含来自另一列的值。在这种情况下，目的是检查用户选择的语言是否在受支持的语言列表中，或者没有设置(左为null)。所以这条线中的一些东西(不起作用)： ALTER TABLE MyTable ADD CONSTRAINT my_constraint CHECK (languageCode IS NULL) OR (languageCode) REFERENCES Languages (languageCode

浏览 6提问于2011-07-28得票数 0

1回答

for循环不在python中运行

、、

我正在编写一个程序，该程序从一个NumPy数组(train_data)读取数据，并使用scikit learn RandomForestClassifier来预测另一个文件(测试)中某列的结果。我所有的代码都运行得很好，除了我的代码末尾的for循环，它告诉我从测试文件中取出行，并将它们写到一个外部文件中(打开)，并根据数据不会运行而增加一列0或1。有什么线索能解释为什么吗？下面是相关的代码 """------------------Setting up the files-----------------------""" testing = c

浏览 0提问于2013-04-10得票数 0

回答已采纳

2回答

Pyspark -如何从DataFrame列中获取随机值

、、

我在一个DataFrame中有一列，我需要在Pyspark中选择3个随机值。有没有人能帮帮我-我，好吗？ +---+ | id| +---+ |123| |245| | 12| |234| +---+ 愿望：从该列获得3个随机值的数组： **output**: [123, 12, 234]

浏览 0提问于2017-10-04得票数 5

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。我试着用这个方法构造矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。 coocc = psdf.T.dot(psdf) coocc 我得到了这个错误 TypeError: Unsupported type DataFrame 我查过医生了。 pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将dataframe转换为系列化，但它并不将dataframe转换为串联，因为我的dataframe有多个列。有没有办法将py

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

从PySpark中的复杂列中提取值

、、

我有一个PySpark数据帧，它有一个复杂的列，请参考下列值： ID value 1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在PySpark dataframe中添加一个新列，它基本上将它转换为一个字符串列表。如果Label为null，则字符串应包含value；如果label不为null，则string应为label:value。因此，对于上面的示例数据帧，输出应如下所示： ID

浏览 0提问于2021-02-09得票数 0

1回答

是否可以使用DataFrames过滤Spark来返回列表中列值所在的所有行？

、、

如果某列的值在指定的列表内，我如何才能只返回Spark DataFrame的行？下面是我的Python pandas执行此操作的方法： df_start = df[df['name'].isin(['App Opened', 'App Launched'])].copy() 我看到了scala的实现，并尝试了几种排列方式，但都不能正常工作。下面是使用pyspark完成此操作的一次失败尝试： df_start = df_spark.filter(col("name") isin ['App Opened', &#

浏览 17提问于2017-03-14得票数 5

回答已采纳

1回答

通过SQL Loader控制文件上载时丢弃CSV中包含空字符串的行

、、

我正在尝试上载CSV，该CSV可能包含/不包含一行中某列的空值。我希望丢弃通过SQL Loader上载到数据库时包含空值的行。如何在ctrl文件中处理此问题：我在ctl文件中尝试了以下条件： when String_Value is not null when String_Value <> '' 但是这些行仍在插入

浏览 2提问于2018-01-16得票数 0

1回答

pyspark.sql.functions -计数以考虑空值：

、

我试图让pyspark.sql.functions.count()函数或pyspark.sql.functions.count_distinct()函数在计算列中不同元素的数量时考虑null值。让我给出以下可重复的示例，为此我需要创建一个数据集： # Dataframe Creation df = spark.createDataFrame([(1,"arun","engineering",20000),\ (2,"manoj","finance",25000),\

浏览 12提问于2022-06-07得票数 0

1回答

当输入参数是从dataframe的两列连接起来的值时，引发UDF错误

、、、、

下面的python代码将一个csv文件加载到dataframe df中，并将一个字符串值从df的单个或多列发送到UDF函数testFunction(...)。如果我发送一个列值，代码就能正常工作。但是，如果我从df的两列发送值df.address + " " + df.city，则会得到以下错误：问题：我可能做错了什么，我们如何解决这个问题？df中的所有列都不是NULL，所以null或空字符串不应该是I问题。例如，如果我发送单列值df.address，则该值有空白(例如，123号主街)。那么，当两列的级联值被发送到UDF时，为什么会出现错误呢？误差 PythonExcep

浏览 6提问于2022-05-21得票数 0

回答已采纳

2回答

火花空映射键

、、

原谅我的无知，我对火种并不熟悉。我正在尝试改进udf，以便使用字典根据来自另一列count_adj的值创建一个新的列a_type。如何说明在此过程中创建新列的无/空类型。这在熊猫身上是非常容易的(df['adj_count'] = df.a_type.map(count_map))，但在火星雨中却很难做到。抽样数据/进口： # all imports used -- not just for this portion of the script from pyspark.sql import SparkSession, HiveContext, SQLContext from

浏览 1提问于2022-02-02得票数 1

回答已采纳

1回答

将包含多个表的txt文件拆分为单个数据帧

、、、、

我有一个从网站下载的txt文件。这个txt文件有许多观察值和不同的表。下面是一个例子：表1 "{'ID':'1','Column A':'Observation A', 'Column B':'Observation B',...}" "{'ID':'2','Column A':'Observation G', 'Column C':'Observation E',...}&

浏览 21提问于2021-02-24得票数 0

回答已采纳

2回答

计数pyspark df列中子字符串列表的出现情况。

、、、

我希望计数子字符串列表的出现情况，并根据pyspark中包含一个长字符串的列创建一个列。 Input: ID History 1 USA|UK|IND|DEN|MAL|SWE|AUS 2 USA|UK|PAK|NOR 3 NOR|NZE 4 IND|PAK|NOR lst=['USA','IND','DEN'] Output : ID History

浏览 0提问于2019-07-16得票数 6

回答已采纳

1回答

Select列是它的包含值SQL Server

我有一个包含多个列的审计表，比方说 Create table TestTable ( ID int, Col1 varchar(10), Col2 varchar(10), Col3 varchar(10), Col4 varchar(10), Col5 varchar(10), Col6 varchar(10), Col7 varchar(10)); insert into TestTable values(1,'Ram',null,null,null,null,null,null); insert into TestTable values(2,null,1,null

浏览 0提问于2014-08-30得票数 0

1回答

计算具有结构列类型的PySpark数据框中的空值或零

、、

我有一个混合了整数列、字符串列和结构列的PySpark数据框架。结构列可以是结构，但也可以只是null。例如： id | mystring | mystruct | -------------------------- 1 | something | <struct>| 2 | something | null | 3 | 0 | null | 4 | something | null | 5 | something | <struct> | 有没有什么简单的方法可以遍历整个数据帧并获得null/na/0值的

浏览 0提问于2021-11-27得票数 0

3回答

Apache Spark:获取每个分区的第一行和最后一行

、、

我想获取spark中每个分区的第一行和最后一行(我使用的是pyspark)。我该怎么做呢？在我的代码中，我使用以下命令根据键列重新划分数据集： mydf.repartition(keyColumn).sortWithinPartitions(sortKey) 有没有办法获得每个分区的第一行和最后一行？谢谢

浏览 6提问于2020-02-21得票数 0

2回答

Spark DataFrame:计算行平均值(或任何聚合操作)

、、、

我在内存中加载了一个Spark，我想对列进行DataFrame (或任何聚合操作)。我该怎么做呢？(在numpy中，这称为在axis=1上执行操作)。如果要计算行中DataFrame的平均值(axis=0)，那么这已经是内置的了： from pyspark.sql import functions as F F.mean(...) 但是，有没有一种方法可以通过编程方式对列中的条目执行此操作？例如，从下面的DataFrame +--+--+---+---+ |id|US| UK|Can| +--+--+---+---+ | 1|50| 0| 0| | 1| 0|100| 0| | 1|

浏览 0提问于2015-09-20得票数 8

回答已采纳

2回答

使用list并替换pyspark列

、

假设我有一个列表new_id_acc = 6,8,1,2,4，我有像这样的PySpark DataFrame id_acc | name | 10 | ABC | 20 | XYZ | 21 | KBC | 34 | RAH | 19 | SPD | 我想用new_id_acc值替换pyspark列id_acc，我该如何实现并做到这一点。我尝试过，发现除了常量值之外，可以使用lit()，但是没有找到任何如何处理list的方法。替换后，我希望我的PySpark数据帧看起来像这样 id_acc | na

浏览 27提问于2019-05-14得票数 1

6回答

如何编写查询以在minimum函数中允许null

、、

我需要编写一个查询来获取表中某列的最小值，如果值为null，那么我希望包括该行。我写了以下查询，但它忽略了空值。如何修改此查询以在结果中包含空值？ select * from TABLE where COLUMN = (select min(COLUMN) from TABLE ); 如果表格如下所示 |ID | VALUE | NAME 101 1 John 101 null John 102 1 Bill 103 1 Tina 103 null Tina 104 null James

浏览 59提问于2017-08-23得票数 3

回答已采纳

1回答

Linq组DataTable结果最大值

、、、

我正在努力消除一些记录，并尝试在Linq中使用GroupBy，但没有任何运气。 DataTable prices = (from t1 in product.AsEnumerable() join t2 in info.AsEnumerable() on (string)t1["productId"] equals (string)t2["productId"] where t1["Date"] == string.Empty || t1["Date"] == null select new {

浏览 18提问于2019-01-30得票数 0

回答已采纳