有没有办法在Pyspark中动态猜测模式？_有没有办法在pyspark中处理时间？_有没有办法在pyspark中收集嵌套模式中所有字段的名称 - 腾讯云开发者社区

python、arrays、python-3.x、apache-spark、pyspark

我在Databricks中有一个表，其中有一个列作为字符串字典，如下所示- +---+---------------------------------------------------------我尝试为其中几个定义了Struct模式，如下所示- from pyspark.sql.types import StructType,StructField, StringType from pyspark.sql.functionsstringDictionary","jsonData.*",&

浏览 23提问于2021-10-02得票数 3

回答已采纳

1回答

PySpark -从字符串生成StructType

pyspark、databricks、azure-databricks

有没有一种简单的方法可以从字符串的结构类型定义中生成模式？举个例子，我确实这样做了：customSchema = StructType([StructField("Date",StringType(),True)]) from pyspark.sql.types import * stringShema = &#

浏览 9提问于2019-07-08得票数 0

回答已采纳

1回答

使用配置单元元数据读取HDFS文件- Pyspark

python、dataframe、pyspark、apache-spark-sql、pyspark-sql

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

2回答

从JSON文件中获取Pyspark模式

python、json、apache-spark、pyspark

我试图从JSON文件中获取Pyspark模式，但是当我使用Python代码中的变量创建模式时，我能够看到<class 'pyspark.sql.types.StructType'>的变量类型，但是当我试图通过有没有办法通过JSON文件获取pyspark模式？

浏览 0提问于2018-07-05得票数 3

2回答

SparkUI -每一阶段对应的代码行？

apache-spark、pyspark、emr

我在AWS集群上运行了一些pyspark程序。我正在监测通过火花用户界面(见附件)的工作。但是，我注意到，与scala或Java spark程序不同，它显示每个阶段对应于哪行代码，我找不到哪个阶段对应于pyspark代码中的哪行代码。有没有办法找出哪一个阶段对应于pyspark代码的哪一行？

浏览 1提问于2016-07-12得票数 15

2回答

从拼图自动推断模式/有选择地将字符串转换为浮点型

apache-spark、pyspark、parquet、pyspark-sql

我有一个包含400+列的parquet文件，当我读取它时，附加到许多列的默认数据类型是字符串(可能是由于其他人指定的模式)。我不能把它包装在try，catch块中，因为它不会抛出任何错误。 有没有一种方法可以检查列是否只包含'integer/ float‘值，并有选择地将这些列转换为浮点数？

浏览 0提问于2018-02-02得票数 0

3回答

PySpark中pandas_udf的隐式模式？

python、apache-spark、pyspark、user-defined-functions

This answer很好地解释了如何使用pyspark的groupby和pandas_udf进行自定义聚合。但是，我不能像示例的这一部分那样手动声明我的模式 from pyspark.sql.types import * StructField("key"有没有办法告诉PySpark只隐含地使用我的函数返回的模式，并假定它对所有工作节点都是相同的？这个模式在运行期间也会发生变化

浏览 26提问于2019-02-20得票数 3

3回答

如何在Spark (Python)中对Row对象的字段进行排序

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在Spark中创建Row对象。我不希望我的字段按字母顺序排序。但是，如果我这样做，它们是按字母顺序排序的。我知道我可以使用"_1“和"_2”(分别表示"foo“和"bar”)，然后分配一个模式(使用适当的"foo“和"bar”名称)。但是有没有什么方法可以阻止Row对象对它们进行排序呢？

浏览 1提问于2016-02-11得票数 14

回答已采纳

1回答

将pyspark stderr从控制台写入特定目录下的日志文件

logging、pyspark

我正在使用spark2-submit test.py在客户端模式(本地)提交一个pyspark程序我想将所有生成到日志文件的STDERR写入到我想要的目录中。 有没有办法做到这一点。我知道下面的代码会将stderr写入到与程序相同的目录下的文本文件中 spark2-submit something.py > results.txt 2>&1 但是有没有办法把它写到我拥有的特定日志目录中呢

浏览 25提问于2021-09-20得票数 0

回答已采纳

1回答

Pyspark dataframe:用给定模式编写jdbc来动态创建表

python、pandas、postgresql、pyspark

是否有一种方法可以像我们使用熊猫的方法那样，动态地从pyspark创建具有给定模式的表。在上面的代码中，我们如何给出模式来

浏览 4提问于2020-06-22得票数 1

回答已采纳

1回答

MLlib regexTokenizer正在忽略重音

regex、tokenize、apache-spark-mllib

我正在用pySpark(Python3)测试MLlib标记器： # -*- coding: utf-8 -*- frompyspark.sql.functions import row_number # Creating我在文档中没有找到任何可以解决这个问题的东西。所以，我在这里迷路了！我曾尝试更

浏览 9提问于2020-01-07得票数 0

1回答

在joomla中未显示模式窗口

jquery、joomla、joomla2.5

我有一个动态添加a的jQuery函数，当我想使用这个元素作为模式时，我不能这样做，什么都不会发生。当我使用php添加相同的元素时，一切都很正常。我的猜测是jQuery.modal看不到这个元素，有没有办法解决这个问题？

浏览 0提问于2013-01-11得票数 0

回答已采纳

1回答

PySpark使用自定义记录分隔符读取CSV文件

python、python-3.x、pyspark、apache-spark-sql

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？

浏览 15提问于2021-05-26得票数 0

1回答

用火花中的大数读json引起四舍五入

apache-spark、pyspark

当我读到它时，不管我在我的模式pyspark.sql.types中使用的是LongType、DecimalType、DoubleType等等.有没有办法不加四舍五入地读出这些数字？

浏览 5提问于2020-03-17得票数 0

1回答

dask读取拼图并指定模式

pandas、apache-spark、dask、parquet、pyarrow

在读入拼图文件时，有没有dask等同于spark指定模式的能力？可能使用传递给pyarrow的kwargs？) df.to_parquet("df.parquet&

浏览 0提问于2021-04-01得票数 4

1回答

如何从PySpark向SQL添加新的和覆盖现有的？

sql、azure、pyspark、azure-synapse、azure-sql-server

所以我在一个SQL数据库中有一个表，我想使用Synapse (PySpark)来，添加新记录，覆盖现有记录()。但是，在PySpark中，我可以使用覆盖模式(这将删除我没有在迭代中推送的旧记录)，也可以使用附加模式(不会覆盖现有记录)。选项A：先加载旧记录，然后在PySpark中合并，然后对所有内容进行处理

浏览 4提问于2022-03-23得票数 0

1回答

动态生成GraphQL模式

graphql、owl、neo4j-apoc

可以从OWL/RDF本体动态创建GraphQL模式吗？我们将数据(这里是本体)存储在neo4j数据库中。 有没有办法动态生成graphql模式？

浏览 63提问于2021-04-09得票数 0

3回答

有没有办法在pyspark中处理时间？

apache-spark、pyspark、databricks

我有一个6个字符的字符串，应将其作为时间数据类型加载到SQL Server中。但是spark没有任何时间数据类型。我尝试了几种方法，但时间戳中没有返回数据类型。46:10|144610||1970-01-01 17:44:33|174433| +-------------------+------+ 有没有办法获取时间戳列中的

浏览 33提问于2020-07-08得票数 0

1回答

Pyspark -如何只读取与特定模式匹配的CSV列

python-3.x、apache-spark、pyspark

我正在尝试使用pyspark来读取这个CSV，并且只保留我知道的那些列。所以我有了带有标题的CSV：我的模式如下： StructField("a", IntegerType(), True),]) 有没有办法让spark只考虑标题和模式中匹配的列，而忽略所有其他的列？

浏览 7提问于2019-07-31得票数 1

回答已采纳

1回答

雪花不扣除拼花中的按列分区

snowflake-cloud-data-platform、parquet

我有一个关于雪花的新功能-Infer模式表函数的问题。推断模式函数在拼图文件上执行得非常好，并返回正确的数据类型。但是，当对拼图文件进行分区并将其存储在S3中时，推断模式的功能与pyspark数据帧不同。在DataFrames中，分区文件夹名和值被读取为最后一列；在Snowflake推断模式中，有没有办法实现同样的结果？ @Gr

浏览 0提问于2021-10-21得票数 5

点击加载更多