Spark根据名称将值提取到多个列_Postgresql将多个值提取到不同的列中_将spark数据框列中的值提取到新的派生列中 - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-sql

我有一个字符串列，需要根据与其关联的名称将它的值提取到多个列中。otherPartofString State DALLocate_SFO-4/3/9 sub Area=<8> ID 8 Name 7 需要从上面形成的列是 State | Area

浏览 15提问于2020-10-30得票数 0

回答已采纳

1回答

如何通过删除空列来创建变量PySpark数据

pyspark、apache-spark-sql、pyspark-dataframes

= SparkSession \ .appName("Python Spark SQL basic example") \行(名称=‘John’，age=32，地址=‘ZYZ-天堂’，userName=None，password=None，salary=None)，行(name=None，age=None，address=None，用户名=‘jdoe’，密码=‘密码’，工资=‘123456

浏览 1提问于2021-02-11得票数 0

回答已采纳

1回答

如何在pyspark中解析嵌套的xml

xml、pyspark

</c><d="value2" e="string" /></b></a> 通过使用data bricks xml解析器，我希望将"c“的string1、string2值作为列表提取到dataframe的列元数据中，但当我使用自定义模式进行推

浏览 1提问于2018-03-26得票数 3

1回答

Spark HiveContext: HDFS上包含多个文件的表

python、apache-spark、dataframe、hdfs

我有一个Hive表X，它在HDFS上有多个文件。表X在HDFS上的位置是/data/hive/X。是否将每个文件视为单独的分区，并由单独的节点处理，然后对结果进行整理？提前谢谢。

浏览 8提问于2016-09-14得票数 0

回答已采纳

1回答

如何按列(UiPath)将excel表格拆分为3张？

uipath、excel-2019

我有一个Excel文件，我需要根据"Name“列将其拆分成多个.csv文件，以便每个文件都像使用UiPath的.csv。我正在将数据提取到一个数据表中，但是我不能按“名称”将它们分割成不同的文件。 ?

浏览 107提问于2020-10-31得票数 0

1回答

我希望加入多个具有相同名称的列的多个数据集，同时具有不同的数据。这可以重命名dataset列，同时将其转换为dataframe。但是，在使用数据集时，是否可以使用重命名或将前缀设置为列名。Dataset<Row> uct = spark.read().jdbc(jdbcUrl, "uct", connectionProperties); Dataset<Row> si = spark.readACTIVE&#

浏览 0提问于2018-01-19得票数 0

回答已采纳

5回答

如何处理分类特征与火花-毫升？

apache-spark、categorical-data、apache-spark-ml、apache-spark-mllib

如何使用spark-ml而不是spark-mllib处理分类数据？虽然文档不是很清楚，但似乎分类器(例如RandomForestClassifier、LogisticRegression )有一个featuresCol参数，它指定了DataFrame中的特性列的名称，还有一个labelCol参数，它指定了DataFrame中标记类的列的名称。显然，我希望在我的预测中使用多个特性，所以我尝试使用VectorAssembler将所有特性放在features

浏览 10提问于2015-08-28得票数 49

1回答

使用动态范围的条件数据提取

excel、vba

我必须根据单元格名称与工作表名称匹配，从多个列复制数据范围。然而，列"A“中每个ID对应的数据范围并不相同，对于某些匹配的表单名称，我们有30个数据，在某些情况下，我们可能有20个数据或任何其他值。我当前的代码使我能够将数据从“组合”工作表提取到具有匹配工作表名称的模板工作表。不使用匹配范围中的偏移量提取30个数据，如何使代码动态化，并根据A列中更改的表

浏览 10提问于2021-06-07得票数 1

回答已采纳

1回答

将字典从spark数据帧中的StringType列中分离出来

python、apache-spark、databricks

我有一个spark表，我想在python中读取(我在databricks中使用的是python3)，实际上结构如下。日志数据存储在单个字符串列中，但它是一个字典。['maine','14','']]).toDF('LogData','State','Orders','OrdDate') 我想要做的是将spark表读取到数据帧中，找到最大事件时间戳，找到具有该时间戳的行，然后计数并仅<e

浏览 39提问于2020-07-01得票数 1

回答已采纳

2回答

如何向DataFrame添加新的结构列

scala、elasticsearch、apache-spark、etl、apache-spark-sql

我目前正在尝试从MongoDB中提取数据库，并使用Spark通过geo_points将其摄取到ElasticSearch中。Mongo数据库有纬度和经度值，但ElasticSearch要求将它们转换为Mongo类型。Spark中有没有一种方法可以将lat和lon列复制到array或struct的新列中如有任何帮助，我们不胜感激！

浏览 0提问于2015-07-25得票数 23

回答已采纳

1回答

只在一列中替换空值，而不是对所有列替换空值。

python、apache-spark

问题：为什么下面的代码只在第一列上用空值替换空值，而不替换具有空值的其他列？例如，如果column1和column2没有空值，而column3、column6、column9有空值，则只能在column3中替换空值，而在column6和column9中则不替换空值。将csv文件读取到Spark dataframe可以正常工作，但是当将该数据导入到server表中时，只有第一

浏览 16提问于2022-05-09得票数 0

5回答

将列值获取到字符串变量中

scala、dataframe、apache-spark、pyspark、apache-spark-sql

我正在尝试将列值提取到变量中，以便在代码中的其他地方使用该值。val name= test.filter(test("id").equalTo("200")).select("name").col("name") name org.apache.spark.sql.Column

浏览 3提问于2016-06-10得票数 38

回答已采纳

1回答

在postgres数据库的SQL查询中，如何将timestamp列的数据转换为整数值？

sql、postgresql

我正在尝试从GP读取数据，并使用Spark将数据摄取到HDFS。我需要一个整数列来对我从GP表中读取的数据进行分区。这里的问题是，我没有主列，也没有任何具有唯一值的列。在这个场景中，我最依赖的列是timestamp列，在这里我可以将它转换为Integer/Long。timestamp列中的数据格式为： select max(last_updated_timestamp) from schema.tablename =>

浏览 100提问于2019-02-19得票数 0

回答已采纳

1回答

在cassandra上处理数据的批处理作业

database、cassandra、data-processing、nosql

我将得到多个逗号分隔的项目，由一个人在特定会话中查看。现在，我为每个相应的项目存储单行。正如您在存储在Cassandra中的数据部分中看到的那样。那么，如果我选择了这个表模式，或者我需要以不同的形式存储它，或者我需要将此数据存储在可以轻松提取报告的其他NoSql数据库中，那么我将如何应用cassandra中的该列，或者如何拆分该列？

浏览 0提问于2015-06-25得票数 0

1回答

在Java中将CSV值转换为Spark* Dataframe中的向量*

java、hadoop、apache-spark、dataframe、vector

我有一个包含两列的CSV文件id列是一个字符串，而feature列是机器学习算法ie的一个逗号分隔的特征值列表。"1,4,5“我基本上只需要在值上调用Vectors.parse()来获得一个向量，但我不想首先转换为RDD。我想把它放到Spark Dataframe中，其中的features列是一个org.apache.spark.mllib.linalg.Vector 我正在使用databricks csv api

浏览 3提问于2018-03-17得票数 0

1回答

基于dataframe列的Elasticsearch和Spark动态索引创建

apache-spark、elasticsearch、apache-spark-sql、elasticsearch-spark

我有一个火花数据，其中有一个列上写着“名称”。名称可以在单个数据name中具有不同的值。当我使用spark (scala)将数据写入elasticsearch时，我希望根据列"name“的值将数据写入不同的索引。dataframe.saveToEs("index-name")dataframe.saveToEs(col(""))

浏览 8提问于2020-01-11得票数 1

回答已采纳

3回答

在Spark* UDF中操作数据帧*

apache-spark、dataframe、apache-spark-sql、spark-dataframe

我有一个从dataframe过滤和选择值的UDF，但它遇到了"object not serializable“错误。详情见下文。假设我有一个dataframe df1，它的列具有名称("ID“、"Y1”、"Y2“、"Y3”、"Y4“、"Y5”、"Y6“、"Y7”、"Y8“、"Y9”、"Y10")。我想要根据来自另一个dataframe df2的匹配的"ID“和"Value”对

浏览 20提问于2018-02-21得票数 3

回答已采纳

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

scala、apache-spark、apache-spark-sql

" val Date = "Date"} 然后，我想按列对我如何将$和ColumnNames.JobSeekerID结合在一起来完成这一任务？

浏览 2提问于2018-01-11得票数 2

回答已采纳

1回答

dask读取具有不同模式的多个拼图文件

python、dataframe、dask、parquet、fastparquet

我想用dask将具有不同方案的多个拼图文件读取到pandas dataframe，并能够合并这些方案。当我谈到不同的方案时，我的意思是，在所有这些文件中都有公共列，但在一些文件中有其他文件中没有的列。不幸的是，当我用 dd.read_parquet(my_parquet_files, engine="fastparquet") 我只有普通的列可读。我知道在spark中有一个读取选项mergeSchema，我想知道在dask中是否有一个简单的方法来做同

浏览 40提问于2019-09-04得票数 0

1回答

从多列DataFrame中火花批写卡夫卡主题

apache-spark、apache-kafka、apache-spark-sql

批处理之后，我需要向Kafka主题写入包含多个不同列的结果DataFrame。根据下面的火花文档，写入Kafka的Dataframe在模式中应该有以下强制列：正如我前面提到的，我有更多的列有值，所以我有一个问题--如何正确地将整个DataFrame行作为一条消息从我的Spark应用程序发送到Kafka主题？我是否需要用一个值列(包含联接值)将所有

浏览 0提问于2018-11-23得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云