腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
pyspark
dataframe
在
经过
某些
处理
后
不会
更改
python
、
dataframe
、
apache-spark
、
pyspark
、
apache-spark-sql
我创建了一个dateframe,并使用窗口函数来获取累加值,但是
在
使用该函数之后,df和df.select()以不同的行顺序显示 spark = SparkSession.builder.master("SparkByExample.com").getOrCreate() # create
dataframe
from
pyspark
.sql.types import Stru
浏览 41
提问于2021-01-28
得票数 1
2
回答
如何从
pyspark
导入"spark“?
pyspark
我正在尝试测试一个实用函数,它接受一个spark
DataFrame
,并在
经过
一些转换
后
输出一个新的spark
DataFrame
。
在
尝试模拟测试数据时,我需要为输入构造一个
pyspark
dataframe
。您如何使用from
pyspark
* import spark
浏览 8
提问于2020-08-12
得票数 0
回答已采纳
2
回答
如何
更改
SparkContext.sparkUser()设置?
scala
、
apache-spark
、
pyspark
我是Spark和
pyspark
的新手。如何
更改
星火用户名?
浏览 2
提问于2015-09-30
得票数 10
回答已采纳
2
回答
只捕捉到的有效载荷的CDC
在
火花结构化的流?
sql-server
、
apache-spark
、
pyspark
、
apache-kafka
、
cdc
为了捕捉Server中的数据
更改
,我尝试执行从Server到
Pyspark
的管道,我已经准备好了一切: 从SQL Server到Kafka进行生产,并使用
Pyspark
问题是:当我试图用控制台使用者检查数据
更改
是否
经过
Kafka时,它会向我显示JSON格式的消息,分为两个记录: Schema和Payload,以及Payload内部,在此之前和之后,分别给出
更改
之前的数据和
更改
后
的数据我只在有效负载中被
浏览 0
提问于2021-06-30
得票数 0
回答已采纳
2
回答
如果json文件中没有key,如何从
Pyspark
sql上下文中查询数据,如何捕获并给出sql分析执行
apache-spark
、
pyspark
、
databricks
我正在使用
Pyspark
在
Dataframe
中转换JSON。我能够成功地改变它。但我面临的问题是,有一个键将出现在一些JSON文件中,而
不会
出现在另一个文件中。当我使用
Pyspark
SQL上下文展平JSON时,
某些
JSON文件中不存在键,它在创建
Pyspark
数据框时出错,抛出SQL分析异常。ConversationRFactor" : 92.4383773803711, "participantId" : "bbe4d
浏览 0
提问于2020-05-14
得票数 1
2
回答
Spark ML多类分类问题的评价指标
apache-spark-ml
Spark ML (基于
DataFrame
的API)是否支持多类问题的混淆矩阵? 我正在寻找Spark v2.2及以上的例子。一个端到端的例子将会非常有用。我在这里找不到混淆矩阵评估-
浏览 0
提问于2018-12-27
得票数 2
1
回答
写入
DataFrame
时,
PySpark
无法溢出
python
、
apache-spark
、
pyspark
、
pyspark-dataframes
我正在使用内置Hadoop的
PySpark
2.4.4
处理
一个大型数据集。数据集被分成多个压缩的CSV文件,我正在尝试使用
PySpark
的DataFrames报告各种列的聚合计数。
在
我要求
PySpark
使用以下命令将
DataFrame
写入磁盘之前,它一直
处理
得很好这会导致下面的警告淹没终端 WARN RowBasedKeyValueBatch我不知道是否可以忽略此警告,或者
在
信任报告
浏览 0
提问于2020-02-23
得票数 0
1
回答
从RDD -
PySpark
创建数据帧
python-3.x
、
apache-spark
、
pyspark
、
rdd
在
执行
PySpark
代码时,通过提供所需的模式从现有的
DataFrame
创建DF时,我无法展示
在
什么情况下会引发以下异常,此代码
在
Databricks社区平台中执行。=header).map(lambda x: x.split(',')) from
pyspark
.sql.types import StructType, StructField, StringType/sql/
dataframe
.py in show(self,
浏览 108
提问于2021-10-25
得票数 0
回答已采纳
1
回答
Pyspark
:云存储中来自多个文件的增量ETL
python
、
apache-spark
、
pyspark
、
google-bigquery
、
google-cloud-dataproc
这些文件存储
在
google云存储上,
pyspark
在
google dataproc上运行,有几个工作节点。 我已经创建了一个
pyspark
文件,它基本上只是迭代文件并按原样加载到bigquery中。我以为我会在bigquery表上看到增量加载,但似乎
pyspark
会将整个gz输入文件合并到
dataframe
中,然后立即
处理
它。所以我
在
大约90分钟
后
得到了结果。我如何编写
pyspark
代码,以便每次读取文件时,都会将其
浏览 22
提问于2021-10-10
得票数 1
2
回答
在
PySpark
中转换面向值的JSON
python
、
json
、
apache-spark
、
pyspark
对于我正在进行的项目,我需要将API中的JSON输出读入星火
DataFrame
,以便进一步
处理
数据湖存储。但是,JSON并不仅仅是我习惯使用的常规JSON。我想将下面的JSON转换成一个星火
DataFrame
,这样它就可以用于Delta的
处理
。有人知道如何有效地将其转换为
DataFrame
吗?value": "Foo" { "value&q
浏览 8
提问于2022-02-28
得票数 1
回答已采纳
1
回答
重命名位于
DataFrame
列中的字典键
python
、
dictionary
、
apache-spark
、
dataframe
、
pyspark
经过
一些
处理
后
,我得到一个
dataframe
,其中
在
dataframe
列中有一个字典。现在,我想在列中
更改
字典的键。从"_1"到"product_id"和"_2"到“时间戳”。以下是
处理
的代码: df1 = data.select("user_id","product_id","timestamp_gmt").rdd.map(lamb
浏览 2
提问于2016-05-25
得票数 2
回答已采纳
1
回答
“RDD”对象没有属性“_jdf”
pyspark
RDD
python-3.x
、
apache-spark
、
machine-learning
、
pyspark
、
spark-dataframe
from
pyspark
import Rowfrom
pyspark
.sql.session import SparkSessionfrom
pyspark
import SparkConfspark = SparkSession.builder.appName("ML").getOrCreatetr_data= td.map(lambda line: line.split()).
浏览 4
提问于2018-02-26
得票数 2
回答已采纳
1
回答
在
PySpark
中计算两个日期之间的差异
pyspark
、
apache-spark-sql
目前,我正在使用
dataframe
,需要计算两个日期之间的天数(作为整数),并将其格式化为时间戳。我选择了这个解决方案:df1 = df1.withColumn("LD", datediff("MD", "TD")) 但是,在从列表中计算和
后
,我得到了一个错误:“列不可迭代”,这使得我无法根据列名计算行的和。col_list = ["a", &
浏览 13
提问于2022-09-26
得票数 0
4
回答
PySpark
org.apache.spark.sql.AnalysisException:找不到表或视图:
python
、
apache-spark
、
twitter
、
pyspark
我有一个类似于许多其他发布的关于
PySpark
的问题,但这些解决方案似乎都不适用于我的问题,所以我发布了一个新的问题。 top_10_df = top_10_tweets.toPandas() #
Dataframe
当然,如果有帮助的话,我可以发布更多的代码,但我真的只是遵循教程而不做任何
更改
。 第一阶段的流设置看起来很好,因为我可以看到Tw
浏览 1
提问于2018-07-22
得票数 4
1
回答
在
不替换表格式的情况下将数据帧写入SQL数据库
pyspark
、
apache-spark-sql
、
azure-databricks
我正在使用Azure Databricks和
pyspark
来
处理
使用dataframes的数据,并且我使用Azure SQL数据库来存储
处理
后
的数据。我已经使用SQL中的普通CREATE TABLE脚本创建了输出表,但我意识到
dataframe
write方法覆盖了表格式。例如,所有字符串列都变成了nvarchar(max)。我
在
pyspark
中的write语句示例: .mode("overwrite") .format(&
浏览 3
提问于2020-05-24
得票数 0
1
回答
Pyspark
单元测试:如何模拟sql调用(并且只模拟sql调用)?
python
、
unit-testing
、
pyspark
我
在
测试以下功能时遇到了麻烦from
pyspark
.sql import
DataFrame
as SparkDataFrame return sdf 下面是我试图用unittest.mock和pytest来
处理
它的方法return SparkSession.builder.master(
浏览 9
提问于2022-02-22
得票数 1
1
回答
字符串中的
Pyspark
双字符替换避免未映射到pandas或rdd的特定单词
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
我继承了一个修改
pyspark
dataframe
中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母,以及一个额外的例外列表,即使它们有重复的字母也会保持不变。目前,这是通过将
dataframe
转换为具有udf的pandas,然后在读回
pyspark
之前对生成的pandas
dataframe
中的字符串应用自定义函数来完成的。不幸的是,对需求的
更改
意味着代码在任何情况下都不能使用pandas udf或映射到rdd。我需要直接在
pysp
浏览 7
提问于2021-03-15
得票数 0
回答已采纳
1
回答
Pyspark
-列表聚合
后
monotonically_increasing_id的索引
更改
apache-spark
、
pyspark
创建索引
后
,我对创建的索引应用collect_list()函数进行简单的聚合。 如果我比较结果,索引
在
某些
情况下会发生变化,特别是
在
输入数据不是太小的情况下,特别是
在
长期范围的上端。完整示例代码: import randomfrom
pyspark
.sql import functionsID 60129554615、60129554616和60129554617,
浏览 77
提问于2021-05-11
得票数 1
回答已采纳
1
回答
pyspqrk sql配置单元表中存在错误数据
apache-spark
、
hive
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我正在尝试使用
Pyspark
中包含25亿条记录的Hive表。我假设表中有一些格式错误的或其他“坏”数据。我使用的是spark版本1.6.2和python版本2.6.6:from
pyspark
.sql import我假设有一些Spark由于某种原因无法
处理
的记录。我想知道,
在
将Hive表作为
pyspark
dataframe
加载
后
,是否有某种方法可以过滤它,这样只
浏览 1
提问于2017-01-28
得票数 1
2
回答
如何将每日级别的值填充到
dataframe
中,而不是空
python
、
pyspark
我有一个包含列的
pyspark
dataframe
,如下所示2 2018-03-21 12:05:33 None现在,类型可以
在
某些
日期
后
更改
,但不能在同一天
更改
。
浏览 17
提问于2018-08-27
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Dataiku DSS Code Recipe 介绍
遇见YI算法之初识Pyspark(二)
大数据下Python的三款大数据分析工具
我用Rust徒手重写了一个Spark,并把它开源了
一文读懂PySpark数据框
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券