pyspark，新列，与模式不匹配_Pyspark -如何只读取与特定模式匹配的CSV列_SQL与新列匹配 - 腾讯云开发者社区

、、

我需要创建一个名为Check的新列，如果一组行中的值不相同，该列将显示不匹配。OK| +---------+--------+-----+-------------+---------+ 我正在考虑使用一个窗口函数来按Category对行进行分组，但我仍然坚持如何思考/编写不匹配的逻辑

浏览 15提问于2021-04-28得票数 3

回答已采纳

1回答

在pyspark中创建带有arraytype列的数据

、、、

我正在尝试用ArrayType()列创建一个新的dataframe，我尝试使用或不定义模式，但无法获得所需的结果。我下面的代码有模式l = [[1,2,3],[3,2,4],[6,8,9]] StructFieldTrue)df = spark.createDataFrame(l,schema)这会产生错误： ValueError

浏览 2提问于2020-09-24得票数 3

回答已采纳

1回答

声明字段类型和实际字段类型不匹配时生成空值的PySpark SQLContext.createDataFrame

、、

在PySpark (v1.6.2)中，当使用指定的模式将RDD转换为DataFrame时，值类型与模式中声明的值类型不匹配的字段将转换为null。from pyspark import SparkContextfrom pyspark.sql.types import StructTypesqlContext.createDataFrame(rdd, schema

浏览 27提问于2016-07-27得票数 0

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创建一个连接这两个表的函数，并创建一个新列，如

浏览 3提问于2021-12-11得票数 0

1回答

将pyspark写入一个雪花表，其中包含相同数量的列和一个额外的autoIncrement列

、、

我有一个具有5列的pyspark，我需要写到雪花表中有6列，5列与dataframe列相同，但是雪花表中有1条额外的自动增量列。当我试图将此数据写入雪花表时，它会给出一个错误；由于dataframe和雪花表中有不同的列数而导致列不匹配。我已经试过了模式=‘追加’，但那不起作用。**sfoptions) \ .option("dbtable"

浏览 5提问于2019-10-10得票数 1

1回答

PySpark:爆炸性模式列与底层嵌套模式不匹配

、、

我使用火花放电与Azure-Synapse相结合。我如何在dataframe中筛选行，这将导致更新模式(在这种情况下，没有折扣属性)？

浏览 4提问于2022-07-11得票数 0

回答已采纳

2回答

我在AWS、table_1和table_2中有两个表，它们的模式几乎相同，但是table_2有两个额外的列。我试图将这两个表连接到相同的列上，并为模式不包括这些值的“旧”数据添加对table_2唯一的列，并将其为空值。这个调用成功地将表连接成一个表，但是，生成的joined_table具有匹配列的重复字段。我的两个问题是：我如何利用AWS Glue作业与Pyspark连接跨两个表匹配的所有列，以便在添加新字段时

浏览 0提问于2018-02-13得票数 4

1回答

如何删除火花放电数据栏中的引号“”

、、

我有一个数据框架。| Name| age|| "aaa"| 111|| "2323"| 999|+-------+-----++-------+-----++-------+-----+| asasa | 8888|| wewwe |99999| +-------+--

浏览 1提问于2019-11-08得票数 2

1回答

检查PySpark列是否与正则表达式匹配，并根据结果创建新列

、、、

我有一个PySpark数据帧，看起来像这样：+----+--------------------++----+------------| sampleexample.org|+----+--------------------+ 我想对上面的dataframe (电子邮件列)应用正则表达式，并根据匹配结果(True或False)添加一个新列。|3983| sample@ex

浏览 69提问于2019-11-07得票数 4

2回答

在向表中插入数据之前，是否执行模式匹配MySQL-side？

、、、、

我是新接触MySQL的，我想知道:有没有可能让一个表根据某种模式匹配来检查尝试的插入，并拒绝任何与模式不匹配的插入，或者这些检查都必须在PHP /任何服务器端语言端完成？我特别考虑使用某种类似正则表达式的模式匹配将user表中的email列限制为只能包含电子邮件地址。

浏览 0提问于2013-06-11得票数 0

回答已采纳

1回答

使用spark-sql或pyspark模式在列之间匹配的转换

、、、

我有一个问题声明，所有的列类型都是字符串 ? 列A模式如果它与列C中的模式匹配，则用1更新好的东西，否则(-) pyspark、sparksql中的任何查询感谢Anuj Gupta

浏览 8提问于2021-11-09得票数 0

回答已采纳

2回答

Pyspark替换Spark dataframe列中的字符串

、、

我想通过替换子字符串在Spark Dataframe列上执行一些基本的词干提取。做这件事最快的方法是什么？id address2 10 bar lane会变成1 2 foo ln3 24 pants ln

浏览 0提问于2016-05-05得票数 54

回答已采纳

1回答

将多个PySpark DataFrames与MergeSchema合并

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

1回答

PySpark模式未被识别

、

我试图使用以下模式转换csv文件： StructField("id", StringType(), True), StructField("words

浏览 3提问于2017-04-21得票数 0

回答已采纳

2回答

使用模式将csv文件加载到dataframe

、

我正在尝试用已知的模式将2个.csv文件(有超过一个标题行)读取到两个不同的数据格式中，并执行比较操作。我不确定是否有任何最佳/更好的方法来创建模式文件(包括列名、数据类型、空值性)，并将其引用到吡火花程序中加载到dataframe中。我为第一个文件编写了如下代码：通过传递RDD，模式结构，使用sqlContext.createDa

浏览 1提问于2018-09-08得票数 2

回答已采纳

1回答

带自定义模式的Spark read镶嵌板

、、

我正在尝试使用自定义架构导入具有parquet格式的数据，但它返回: TypeError: option()缺少1个必需的位置参数：'value‘ StructField("id_sku", IntegerType(), True), StructField("flag_weight", StringType(), True

浏览 1提问于2018-09-18得票数 7

1回答

如何根据将列的行匹配到列表，将新列添加到PySpark DF

、、、

我有一个PySpark DF，它包含数百万个路名实例。因此，我将无法皈依潘达。我还有一个列表，其中包含一小部分(大约400个)重要的道路名称。我希望在DF中创建一个新列，该列标记道路名称是否包含子集中的任何字符串。例如，如果列表包含一个名为"Portobello“的实例，那么我希望DF中包含"Portobello”的所有行在新列中标记为"1“。如果该行不包含，则需要列中的"0“。“蓝色波托贝罗路”或“波托贝罗绿

浏览 0提问于2022-05-04得票数 0

2回答

如何使用完全缓存模式从查找中获取所有匹配行？

、、

我需要在C列上的两个表T1(A，B，C)和T2(A，B，C，D，E)之间查找，以得到所有匹配的B列值： T2：当我选择完全缓存模式时，我只得到第一个匹配行(我只对B列值感兴趣)：12122，但是我还需要得到12123和12124，因为C也与这些行匹配。我尝试使用部分缓存模式和不缓存模式，方法是使用自定义的inner join查询(在SSMS中执行查询时返回所有需要的行)，但不返回所有行，

浏览 0提问于2019-08-29得票数 3

1回答

在Azure数据工厂中使用Azure数据流有条件地向上插入到增量接收器中

、、、

我在Azure数据流模块中有一个接收器增量，我用来更新它的dataframe有一个用于业务键的散列键和一个用于所有列内容的散列键。我希望将新的散列业务散列键插入到接收器中，并且仅在内容散列键不同时才更新现有散列键(本质上仅当已存在的业务密钥的内容散列发生变化时才更新)。你认为我可以使用“修改行策略”来做这件事吗？我主要在寻找一种类似于pyspark中的“合并”选项的解决方案，在这种方案中，我可以对业务键匹配

浏览 1提问于2021-06-10得票数 0

1回答

PySpark RDD:列数不匹配

、、、、

我希望使用pyspark与其中一个列一起构建一个数据文件，该列是数据集的另外两个列的的结果。为此，我创建了一个在rdd.map()函数中调用的函数，如下所示：from pyspark.sql import Row test_df_schema) \ final_test_df.show(truncate=

浏览 3提问于2020-08-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云