pyspark dataframe在经过某些处理后不会更改_Xamarin XAML文件在更改某些代码后不会更改_如何让forEach循环或.map()在经过过滤器更改后返回或显示某些数据？ - 腾讯云开发者社区

python、dataframe、apache-spark、pyspark、apache-spark-sql

我创建了一个dateframe，并使用窗口函数来获取累加值，但是在使用该函数之后，df和df.select()以不同的行顺序显示 spark = SparkSession.builder.master("SparkByExample.com").getOrCreate() # create dataframefrom pyspark.sql.types import Stru

浏览 41提问于2021-01-28得票数 1

2回答

如何从pyspark导入"spark“？

pyspark

我正在尝试测试一个实用函数，它接受一个spark DataFrame，并在经过一些转换后输出一个新的spark DataFrame。在尝试模拟测试数据时，我需要为输入构造一个pyspark dataframe。您如何使用from pyspark* import spark

浏览 8提问于2020-08-12得票数 0

回答已采纳

2回答

如何更改SparkContext.sparkUser()设置？

scala、apache-spark、pyspark

我是Spark和pyspark的新手。如何更改星火用户名？

浏览 2提问于2015-09-30得票数 10

回答已采纳

2回答

只捕捉到的有效载荷的CDC在火花结构化的流？

sql-server、apache-spark、pyspark、apache-kafka、cdc

为了捕捉Server中的数据更改，我尝试执行从Server到Pyspark的管道，我已经准备好了一切：从SQL Server到Kafka进行生产，并使用Pyspark问题是:当我试图用控制台使用者检查数据更改是否经过Kafka时，它会向我显示JSON格式的消息，分为两个记录: Schema和Payload，以及Payload内部，在此之前和之后，分别给出更改之前的数据和更改后的数据我只在有效负载中被

浏览 0提问于2021-06-30得票数 0

回答已采纳

2回答

如果json文件中没有key，如何从Pyspark sql上下文中查询数据，如何捕获并给出sql分析执行

apache-spark、pyspark、databricks

我正在使用Pyspark在Dataframe中转换JSON。我能够成功地改变它。但我面临的问题是，有一个键将出现在一些JSON文件中，而不会出现在另一个文件中。当我使用Pyspark SQL上下文展平JSON时，某些JSON文件中不存在键，它在创建Pyspark数据框时出错，抛出SQL分析异常。ConversationRFactor" : 92.4383773803711, "participantId" : "bbe4d

浏览 0提问于2020-05-14得票数 1

2回答

Spark ML多类分类问题的评价指标

apache-spark-ml

Spark ML (基于DataFrame的API)是否支持多类问题的混淆矩阵？我正在寻找Spark v2.2及以上的例子。一个端到端的例子将会非常有用。我在这里找不到混淆矩阵评估-

浏览 0提问于2018-12-27得票数 2

1回答

写入DataFrame时，PySpark无法溢出

python、apache-spark、pyspark、pyspark-dataframes

我正在使用内置Hadoop的PySpark 2.4.4处理一个大型数据集。数据集被分成多个压缩的CSV文件，我正在尝试使用PySpark的DataFrames报告各种列的聚合计数。在我要求PySpark使用以下命令将DataFrame写入磁盘之前，它一直处理得很好这会导致下面的警告淹没终端 WARN RowBasedKeyValueBatch我不知道是否可以忽略此警告，或者在信任报告

浏览 0提问于2020-02-23得票数 0

1回答

从RDD - PySpark创建数据帧

python-3.x、apache-spark、pyspark、rdd

在执行PySpark代码时，通过提供所需的模式从现有的DataFrame创建DF时，我无法展示在什么情况下会引发以下异常，此代码在Databricks社区平台中执行。=header).map(lambda x: x.split(',')) from pyspark.sql.types import StructType, StructField, StringType/sql/dataframe.py in show(self,

浏览 108提问于2021-10-25得票数 0

回答已采纳

1回答

Pyspark :云存储中来自多个文件的增量ETL

python、apache-spark、pyspark、google-bigquery、google-cloud-dataproc

这些文件存储在google云存储上，pyspark在google dataproc上运行，有几个工作节点。我已经创建了一个pyspark文件，它基本上只是迭代文件并按原样加载到bigquery中。我以为我会在bigquery表上看到增量加载，但似乎pyspark会将整个gz输入文件合并到dataframe中，然后立即处理它。所以我在大约90分钟后得到了结果。我如何编写pyspark代码，以便每次读取文件时，都会将其

浏览 22提问于2021-10-10得票数 1

2回答

在PySpark中转换面向值的JSON

python、json、apache-spark、pyspark

对于我正在进行的项目，我需要将API中的JSON输出读入星火DataFrame，以便进一步处理数据湖存储。但是，JSON并不仅仅是我习惯使用的常规JSON。我想将下面的JSON转换成一个星火DataFrame，这样它就可以用于Delta的处理。有人知道如何有效地将其转换为DataFrame吗？value": "Foo" { "value&q

浏览 8提问于2022-02-28得票数 1

回答已采纳

1回答

重命名位于DataFrame列中的字典键

python、dictionary、apache-spark、dataframe、pyspark

经过一些处理后，我得到一个dataframe，其中在dataframe列中有一个字典。现在，我想在列中更改字典的键。从"_1"到"product_id"和"_2"到“时间戳”。以下是处理的代码： df1 = data.select("user_id","product_id","timestamp_gmt").rdd.map(lamb

浏览 2提问于2016-05-25得票数 2

回答已采纳

1回答

“RDD”对象没有属性“_jdf”pyspark RDD

python-3.x、apache-spark、machine-learning、pyspark、spark-dataframe

from pyspark import Rowfrom pyspark.sql.session import SparkSessionfrom pyspark import SparkConfspark = SparkSession.builder.appName("ML").getOrCreatetr_data= td.map(lambda line: line.split()).

浏览 4提问于2018-02-26得票数 2

回答已采纳

1回答

在PySpark中计算两个日期之间的差异

pyspark、apache-spark-sql

目前，我正在使用dataframe，需要计算两个日期之间的天数(作为整数)，并将其格式化为时间戳。我选择了这个解决方案：df1 = df1.withColumn("LD", datediff("MD", "TD")) 但是，在从列表中计算和后，我得到了一个错误：“列不可迭代”，这使得我无法根据列名计算行的和。col_list = ["a", &

浏览 13提问于2022-09-26得票数 0

4回答

PySpark org.apache.spark.sql.AnalysisException:找不到表或视图：

python、apache-spark、twitter、pyspark

我有一个类似于许多其他发布的关于PySpark的问题，但这些解决方案似乎都不适用于我的问题，所以我发布了一个新的问题。 top_10_df = top_10_tweets.toPandas() # Dataframe当然，如果有帮助的话，我可以发布更多的代码，但我真的只是遵循教程而不做任何更改。第一阶段的流设置看起来很好，因为我可以看到Tw

浏览 1提问于2018-07-22得票数 4

1回答

在不替换表格式的情况下将数据帧写入SQL数据库

pyspark、apache-spark-sql、azure-databricks

我正在使用Azure Databricks和pyspark来处理使用dataframes的数据，并且我使用Azure SQL数据库来存储处理后的数据。我已经使用SQL中的普通CREATE TABLE脚本创建了输出表，但我意识到dataframe write方法覆盖了表格式。例如，所有字符串列都变成了nvarchar(max)。我在pyspark中的write语句示例： .mode("overwrite") .format(&

浏览 3提问于2020-05-24得票数 0

1回答

Pyspark单元测试:如何模拟sql调用(并且只模拟sql调用)？

python、unit-testing、pyspark

我在测试以下功能时遇到了麻烦from pyspark.sql import DataFrame as SparkDataFrame return sdf 下面是我试图用unittest.mock和pytest来处理它的方法return SparkSession.builder.master(

浏览 9提问于2022-02-22得票数 1

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

python、pandas、apache-spark、pyspark、apache-spark-sql

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe中的字符串应用自定义函数来完成的。不幸的是，对需求的更改意味着代码在任何情况下都不能使用pandas udf或映射到rdd。我需要直接在pysp

浏览 7提问于2021-03-15得票数 0

回答已采纳

1回答

Pyspark -列表聚合后monotonically_increasing_id的索引更改

apache-spark、pyspark

创建索引后，我对创建的索引应用collect_list()函数进行简单的聚合。如果我比较结果，索引在某些情况下会发生变化，特别是在输入数据不是太小的情况下，特别是在长期范围的上端。完整示例代码： import randomfrom pyspark.sql import functionsID 60129554615、60129554616和60129554617，

浏览 77提问于2021-05-11得票数 1

回答已采纳

1回答

pyspqrk sql配置单元表中存在错误数据

apache-spark、hive、pyspark、apache-spark-sql、pyspark-sql

我正在尝试使用Pyspark中包含25亿条记录的Hive表。我假设表中有一些格式错误的或其他“坏”数据。我使用的是spark版本1.6.2和python版本2.6.6：from pyspark.sql import我假设有一些Spark由于某种原因无法处理的记录。我想知道，在将Hive表作为pyspark dataframe加载后，是否有某种方法可以过滤它，这样只

浏览 1提问于2017-01-28得票数 1

2回答

如何将每日级别的值填充到dataframe中，而不是空

python、pyspark

我有一个包含列的pyspark dataframe，如下所示2 2018-03-21 12:05:33 None现在，类型可以在某些日期后更改，但不能在同一天更改。

浏览 17提问于2018-08-27得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云