Spark -将新列添加到具有与给定模式比例匹配的列的数据框_通过将列动态转换为spark数据框中的给定类型来添加新列_将spark数据框列中的值提取到新的派生列中 - 腾讯云开发者社区

scala、apache-spark

我想用现有列的新映射列将其附加到dataframe，这些列以给定的公共前缀开头。例如，我的输入是 {"Prefix_A": "v_A", "Prefix_B": "v_B", "Field": "v"}, {"Prefix_A": "v_A", "Prefix_B": &q

浏览 5提问于2019-03-09得票数 1

2回答

Pyspark替换Spark dataframe列中的字符串

python、apache-spark、pyspark

我想通过替换子字符串在Spark Dataframe列上执行一些基本的词干提取。做这件事最快的方法是什么？id address2 10 bar lane会变成 id address

浏览 0提问于2016-05-05得票数 54

回答已采纳

2回答

Cassandra将列类型从Timestamp更改为Date

date、datetime、cassandra

有没有办法将Cassandra列从timestamp更改为date而不丢失数据？例如'2021-02-25 20:30:00+0000‘到'2021-02-25’ 如果不是，将此列(时间戳)迁移到新列(日期)的最简单方法是什么？

浏览 83提问于2021-08-30得票数 1

回答已采纳

1回答

使用Spark的Apache方案演进

apache-spark、iceberg、apache-iceberg

目前我在我的项目中使用Iceberg，所以我对此有一个疑问。我目前的情景是：df.writeTo("catalog.mydb.test2").using("iceberg").create()df.createOrReplaceTempView(&quo

浏览 9提问于2022-08-16得票数 1

3回答

如何在Apache Spark中处理变化的拼图模式

apache-spark、apache-spark-sql、spark-dataframe、emr、parquet

我遇到了一个问题，我在S3中将拼图数据作为每日数据块(以s3://bucketName/prefix/YYYY/MM/DD/的形式)，但我无法从不同的日期读取AWS EMR Spark中的数据，因为一些列类型不匹配JSON数据也被划分为日期，即键具有日期前缀。读取JSON工作得很好。无论当前正在读取多少数

浏览 0提问于2016-12-02得票数 24

回答已采纳

3回答

在CQL中有没有像MySQL一样的“听起来像”的函数？

cassandra、cql

当我使用MySQL时，我可以用SELECT * FROM table WHERE col LIKE "%attribute%";这样的语句查询数据库有没有办法在Cassandra中做到这一点？

浏览 1提问于2015-09-12得票数 1

1回答

指定Spark* Schema不会显示正确的显示结果*

python-3.x、pyspark、azure-databricks、pyspark-dataframes

我为我的spark代码指定了模式，但是结果都返回NULL。然而，当I inferSchema=True，header=True时，我得到了正确的结果。例如，我的模式如下所示： myschema = StructType([StructField("event_ts", IntegerType(), True)longitude", DoubleType(), True) ,StructField("co

浏览 35提问于2020-01-12得票数 0

回答已采纳

1回答

如何使用python将列添加到增量表

apache-spark、databricks、delta-lake

我有三角桌df = spark.read.load("/databricks-datasets/learning-spark-v2/people) table_name = "people_10m"现在，我要添加一个模式更改，可能是单个列，可能是几个列，

浏览 9提问于2022-10-20得票数 0

回答已采纳

2回答

Spark SQL:未解析的属性

apache-spark-sql

当我尝试读取sql结果的计数时，收到以下错误：Exception in thread "main" org.apache.spark.sql.catalyst.errors.package$TreeNodeException: Unresolved attributesval results= sqlContext.sql("select * from tablename")我正在使用S

浏览 2提问于2014-11-25得票数 0

1回答

在pyspark的现有dataframe中添加新列的方法是什么？

python、apache-spark、pyspark、pyspark-dataframes

我已经在现有的数据框中添加了一个新列，但它没有反映在数据帧中。如果我们可以将数据帧分配给另一个数据帧，我们就可以看到结果test.show() 有没有办法向现有的dataframe添加一个新的<em

浏览 4提问于2021-01-26得票数 0

1回答

创建Delta表时的Databricks SQL AddColumn

pyspark、databricks、delta-lake、dbsql

我正在尝试从增量桶中创建一个在DBSQL转移项中添加了一个列的delta表。我不想传递模式，因为随着时间的推移，这种情况可能会在桶中发生变化，但我只想向亚稳区添加一列，即generatedAlways列，以便在增量桶接收新数据时填充新值。这是我基于Databricks文档编写的代码：.tableName("gol

浏览 17提问于2022-11-23得票数 0

1回答

在Word加载项中更新表

binding、office-js、word-addins

我想以编程方式将一个表添加到文档中，然后用新数据更新表。当我调用setDataAsync()时，底层表的结构不应该被修改，因此只有在数据具有相同的列数时才执行更新。如果数据列较少，则额外的列将保持不变(有风险！)。如果数据有更多的列，则会引发一个错误，指出“提供的数据

浏览 11提问于2016-08-30得票数 0

2回答

动态排序ExtJS 4.2中的现有列

extjs、extjs4.2

我有一个具有定义模型的网格，但是它应该只显示用户选择看到的列，并按照他选择要显示的列的顺序显示它们。业务需求不是使用内置列标题菜单对列进行排序/隐藏，也不使用拖放功能来命令列，而是使用一个对话框，用户可以在其中从“可用列”列表中选择“选定列”，在该对话框中他还可以设置列的显示顺序。我需要构建一个简单<

浏览 4提问于2015-04-02得票数 0

1回答

在不同列序的蜂箱表中添加火花数据

pyspark、hive、hdp

模式中发生了更改，因此我使用"alter“命令更新目标表，默认情况下将新列添加到目标表的最后位置。现在，我尝试使用下面的代码将spark保存到它，但是dataframe中的列按字母顺序排列，并且我得到了下面的错误消息hive.setDatabase('myDB') df.write.format(&

浏览 4提问于2021-02-17得票数 0

回答已采纳

1回答

如何更改数组中的列数据类型

json、scala、apache-spark、spark-dataframe、parquet

但是，我坚持的事实是，当读取拼板时，Spark总是尝试从模式文件中获取模式，或者只是从第一个parquet文件中获取模式，并假定模式对于所有文件都是相同的。因此，假设我有一个具有以下模式的数据的JSON文件： |-- Id: long (nullable = true) |-- People: array (nullable = true: string (c

浏览 1提问于2017-01-26得票数 2

回答已采纳

1回答

如何从现有的时间戳列向spark* dataFrame添加新的datetime列*

pyspark、apache-spark-sql

我在Spark中有一个数据帧，它有一个列时间戳。我想在此数据框中添加一个新列，该数据框具有从此现有时间戳列创建的以下格式的DateTime。 “YYYY-MM-DD HH:MM:SS”

浏览 35提问于2021-06-24得票数 0

1回答

Azure数据库INFORMATION_Schema

apache-spark-sql、databricks、azure-databricks、information-schema

我正在使用，需要有一种方法来找出哪些列在几个表中被允许为NULL。对于MySQL，有一个众所周知的Information_Schema，它不存在于Databricks中。我现在的想法是使用Spark从那里创建一个模式。我现在想知道这是否是生成信息模式的等效方式？我的方法是这样的：df.schema 任何评论都将不胜感

浏览 7提问于2022-04-27得票数 1

回答已采纳

2回答

具有默认值的Django字段迁移到PostgreSQL数据库

python、django、postgresql、django-migrations

在这里，它说："PostgreSQL在模式支持方面是这里所有数据库中最有能力的；唯一的警告是，添加具有默认值的列将导致对表的完全重写，时间与其大小成正比。“因此，建议您始终使用null=True创建新列，因为这样会立即添加它们。” 我在问我是否正确。据我所知，我应该先用null=True而没有默认值创建字段，然后迁移它，然后给它一个默认值，然后再次迁移它，这些值会立即被添加，但是否则整个<

浏览 5提问于2017-01-06得票数 7

回答已采纳

2回答

如何在没有联接的星火`DataFrame.map()操作中更改模式？

scala、dataframe、apache-spark、apache-spark-sql

我希望将任意模式的DataFrame转换为具有相同模式的新DataFrame和一个新列，该列是对每一行中离散显示的数据进行计算的结果。我可以放心地假设某些类型的列可以用于逻辑计算，尽管DataFrame是任意模式的。DataFrame映射到一个新的DataF

浏览 2提问于2021-06-29得票数 1

回答已采纳

1回答

如何检查Pyspark Map中是否存在key或value

python、pyspark-sql

我在spark DF中有一个Map列，并希望根据特定的键过滤此列(即，如果map中的键与所需值匹配，则保留该行)。例如，我的模式定义为： [StructField('id', StringType()),) 我的样本<e

浏览 20提问于2017-08-30得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云