从Spark Dataframe中的字符串列中删除尾部制表符_在spark dataframe中创建子字符串列_删除panda dataframe中的nan字符串列 - 腾讯云开发者社区

scala、apache-spark

我需要从包含尾部空格的Dataframe中清理一列。' '17390052 ' 首先，我尝试使用trim删除空格从Spark中的字符串列中删除"tab“字符的正确方法是什么？

浏览 172提问于2021-06-30得票数 0

回答已采纳

2回答

如何从list[String]中获取DataFrame

scala、apache-spark

我在HDFS中有一个文本文件，其中包含一个ids列表，我想将这些ids作为字符串列表读取。当我这么做的时候我得到了一个Listorg.apache.spark.sql.Row。如何将此文件读入字符串列表？

浏览 0提问于2018-03-28得票数 0

回答已采纳

1回答

如何在pyspark中将列表合并为单个列表

apache-spark、dataframe、pyspark

在spark dataframe中，我有1列，其中包含列表列表作为行。我想将字符串列表合并为一个。INPUT DATAFRAME:| name |friends || Kim |[["C","K"]["L","G"

浏览 6提问于2018-08-31得票数 3

回答已采纳

2回答

Spark 2.0，DataFrame，筛选字符串列，不等运算符(!==)已弃用

apache-spark、spark-dataframe

我正在尝试过滤DataFrame，只保留那些具有特定字符串列的行不为空。df.filter($"stringColumn" !== "")如何检查Spark > 2.0中的字符串列值是否为空？

浏览 1提问于2016-10-20得票数 22

回答已采纳

2回答

如何将Spark Dataframe的时间戳列转换为字符串列

scala、apache-spark

我想把Spark dataframe所有的时间戳列转换成字符串列。有人能告诉我如何为每个数据帧自动做到这一点吗？因此，我需要在任何给定表中使用有关列类型的信息，并将其转换为字符串列。

浏览 66提问于2019-11-08得票数 1

1回答

根据中的列数据类型，从dataframe选择列到另一个数据

scala、apache-spark、dataframe、apache-spark-sql

我有火花数据 |-- Recency: double (nullable = false)我想通过从这里删除字符串列来创建一个新的dataframe。

浏览 1提问于2016-01-15得票数 0

回答已采纳

1回答

如何在控制台上打印spark数据框名称

apache-spark、pyspark

我是spark的新手。我们有没有内置的函数来打印刚才的数据框名称？

浏览 6提问于2020-02-17得票数 0

回答已采纳

1回答

spark 2.x正在使用csv函数将整型/双精度列作为字符串读取

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在使用下面的语句在spark中读取csv。df = spark.read.csv('<CSV FILE>', header=True, inferSchema = True) 当我检入spark dataframe时，一些整型和双精度列被存储为dataframe中的字符串列。我已经检查了特定列的值，所有的值都是双精度类型，但spark仍然推断为S

浏览 5提问于2017-08-31得票数 2

1回答

Spark-SQL :如何将TSV或CSV文件读入dataframe并应用自定义模式？

scala、apache-spark、apache-spark-sql、spark-dataframe

我在使用制表符分隔值(TSV)和逗号分隔值(CSV)文件时使用Spark 2.0。我希望将数据加载到Spark-SQL数据帧中，在读取文件时，我希望完全控制模式。我不希望Spark从文件中的数据中猜测模式。如何将TSV或CSV文件加载到Spark SQL Dataframe中，并对其应用模式？

浏览 2提问于2017-04-20得票数 6

2回答

如何删除星火表列中的空白

python、apache-spark、pyspark、databricks、sparktable

我想从特定列(Purch_location)中的所有值中删除空格。我使用的是spark表，而不是dataframe或SQL表(但如果需要，我可以使用dataframe或SQL表)。下面是我的星火表的生成方式：cols = dataset.columns+----------+----

浏览 6提问于2017-12-03得票数 2

3回答

如何在spark 2.0中使用sql获取正确的子字符串

apache-spark

例如，如果我有一个像"2.450“这样的字符串列值，我想从该列中获得正确的2个字符"50”，如何使用spark 2.0.1中的sql获取它。0.1我正在从dataframe创建的视图上运行我的sql mydf.createOrReplaceTempView("myview");

浏览 3提问于2016-10-19得票数 4

回答已采纳

1回答

如何创建带时间戳的spark数据帧

scala、apache-spark

如何在一步中创建具有timestamp数据类型的spark数据帧？下面是我如何在两个步骤中做到这一点。使用spark 2.4 首先创建带有时间戳字符串的dataframe import org.apache.spark.sql.types._ S

浏览 10提问于2019-02-27得票数 5

回答已采纳

1回答

如何在Scala中的dataframe上应用regex_replace时，修复异常“当前不支持'E‘类型的文字”？

regex、postgresql、scala、apache-spark

表之前，我们被要求在具有字符串数据类型的dataframe列上应用regex_replace模式。代码正确地标识了字符串列，在其中可以看到列名：period_name。,true), StructField(ledger_id,LongType,true), StructField(currency_code,StringType,true)) 其要求是以多种格式删除空格字符串列中的数据可以具有多种格式的<

浏览 0提问于2018-08-25得票数 0

回答已采纳

1回答

如何在DataFrames中将列类型从String更改为Date？

scala、apache-spark、apache-spark-sql

我有一个数据帧，它有两列(C，D)被定义为字符串列类型，但列中的数据实际上是data。例如，列C的日期为“20150401-APR-2015”，列D的日期为“2015”。我想将它们更改为日期列类型，但我没有找到这样做的好方法。我查看了需要将Spark SQL的DataFrame中的字符串列类型转换为Date列类型的堆栈溢出。日期

浏览 1提问于2016-04-30得票数 13

回答已采纳

2回答

获取地理二进制PySpark的文本

python、pyspark、apache-spark-sql、geolocation、geospatial

我正在读取一个使用AWS DMS服务从MySQL表生成的parquet文件。此表有一个类型为Point (WKB)的字段。当我读取这个拼图文件时，Spark根据下面的代码将其识别为二进制类型： file_dataframe = sparkSession.read.format('parquet')\ .option我尝试将列转换为字符串，但得到的结果如下： file_dataframe = file_datafram

浏览 20提问于2020-09-19得票数 0

回答已采纳

1回答

在scala dataframe中将字符串列转换为十进制

scala、dataframe、casting

我有一个dataframe ( scala ) --我在笔记本中同时使用了pyspark和scala。#pysparkimport org.apache.spark.sql.functions._ val df = spark.sql("select

浏览 2提问于2020-10-27得票数 0

回答已采纳

1回答

-syntax脚本:使用此处文档时出现"'<<‘不匹配“shell错误

shell、ksh

嗨，我正在尝试编写一个程序，如果一个感兴趣的人在给定的时间在线，它将提醒用户。到目前为止我的程序是 else fi echo "No arguments provided"我的问题是我检查了很多其他的例子，我的at命令，here document，看起来和他们的是一样的。有人能帮我吗？谢谢。

浏览 0提问于2014-03-17得票数 4

回答已采纳

1回答

当foldLeft应用于dataFrame时，如何理解输出数据？

scala、apache-spark

我试图使用Scala中的foldLeft & regex_replace从Dataframe的字符串列中删除新的行字符。在读取了postgres上的关系数据库管理系统表: public.test_sid之后创建了数据。该表有4列：id, id1, id2, id3和id3中有一个新的行字符。：spColsDF的<

浏览 0提问于2018-08-27得票数 1

回答已采纳

2回答

如何在Apache Spark中根据分隔符将单字符串列转换为多列

apache-spark、pyspark、apache-spark-sql

我有一个包含字符串列的数据框，我想在其中创建多个列。我想从它创建多个列。字符串的格式是相同的- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出中，我需要多个列- col1 to colN，值作为每列的行。以下是输出-我如何在spark</

浏览 23提问于2021-06-02得票数 0

回答已采纳

1回答

导出excel时如何设置列表头？

python、pandas

我尝试更改标题标题：for item in df.columns.map(lambda x: {x: self._get_column_header(x)}):self._set_column_style(df).to_excel(xls_writer, startcol=1,

浏览 7提问于2020-02-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云