腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
pyspark
寄存器内置函数及其
在
spark.
sql
查询
中的使用
、
、
在
spark.
sql
查询
中注册和使用
pyspark
version 3.1.2内置函数的正确方式是什么? 下面是一个创建
pyspark
DataFrame
对象并在纯
SQL
中
运行
简单
查询
的最小示例。For column literals, use 'lit', 'array', 'struct' or 'create_map' function...的<em
浏览 4
提问于2021-08-19
得票数 0
回答已采纳
1
回答
在
PySpark
DataFrame
上
运行
sql
查询
但是,我有一个复杂的
SQL
查询
,我想对这些数据表进行操作,我想知道是否可以避免将其转换为
pyspark
。
在
SQL
中: select column1, column1 where end_date >= DATE '2019-03-31
浏览 18
提问于2019-08-07
得票数 1
回答已采纳
3
回答
如何将注册为spark表的表放入数据帧
、
、
、
我已经使用spark-thriftserver connection将表从PostgreSQL数据库导入到spark-
sql
中,现在我可以从直线上看到这些表。
浏览 1
提问于2016-09-25
得票数 2
2
回答
如何在Databricks
SQL
中执行for或while循环
、
、
、
、
有人知道如何在Databricks的
SQL
中编写for或while循环吗?我尝试了以下
SQL
Server类型代码的许多变体,但似乎都不起作用。我似乎也找不到任何关于它的参考资料。我不喜欢用
SQL
语言,因为我需要将输出提供给更多的
PySpark
代码。
浏览 4
提问于2021-11-13
得票数 1
1
回答
在
Pyspark
中使用IN子句的Case when语句
、
、
下面是我用来完成任务的传统
SQL
代码。
在
Spark中也需要做同样的事情。
Sql
代码:ELSE 2 END AS Test我知道
在
spark中使用when只有一个条件。
浏览 0
提问于2016-04-27
得票数 2
回答已采纳
1
回答
如何在databricks notebook中将
pyspark
.
sql
.
dataframe
.
DataFrame
转换回
SQL
表
、
、
、
、
我通过执行以下行创建了
pyspark
.
sql
.
dataframe
.
DataFrame
类型的数据帧:
dataframe
= sqlContext.
sql
("select * from my_data_table") 如何将其转换回可以
运行
sql
查询
的sparksql表?
浏览 0
提问于2016-08-20
得票数 10
回答已采纳
1
回答
Spark
SQL
传递变量- Synapse (Spark池)
、
、
、
、
我尝试了以下几种方法:%%
pyspark
select * from silver.employee_dim
浏览 23
提问于2021-06-02
得票数 0
2
回答
将数据保存到HDFS的格式是什么?
、
、
、
创建
DataFrame
后,我可以将其保存为avro、csv或拼板格式。
在
dataframe
或rdd中是否有其他格式可用于
在
Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
3
回答
HiveContext.
sql
()给出
运行
时没有这样的方法错误
、
、
、
、
嗨,我正在尝试使用Apache和Apache
运行
一个简单的java程序。程序编译时没有任何错误,但在
运行
时我得到以下错误: Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.
sql
.hive.HiveContext.
sql
(Ljava/lang/String;)Lorg/apache/spark/
sql
/
DataFrame<
浏览 0
提问于2017-06-01
得票数 1
回答已采纳
1
回答
如何将udf添加到sqlContext中
、
、
我知道我可以注册一个UDFand函数,因为它可以
在
SQL
查询
中使用: return len(s)from
pyspark
.
sql
.types import IntegerTypedata.select(example_udf(&
浏览 1
提问于2018-04-13
得票数 0
回答已采纳
1
回答
通过
Pyspark
对
dataframe
运行
SQL
查询
、
我想在
dataframe
上
运行
sql
查询
,但是是否必须在这个
dataframe
上
创建一个视图?还有更简单的方法吗?, ('b', 1, 1),]).toDF('id', 'foo', 'bar') 我想要对这个数据执行一些复杂的
查询</em
浏览 2
提问于2022-05-15
得票数 2
1
回答
如何在
pyspark
上
使用多核(来自python脚本)
、
我正在使用
pyspark
对一个parquet文件进行一些
sql
查询
。我需要使用多个内核,但我没有找到任何有用的信息。这是我正在使用的代码。正如您所看到的,我将核心数设置为3,但是当我
运行
脚本时,我可以
在
htop
上
看到只有1个核心
在
使用。我该如何解决这个问题呢?from
pyspark
.
sql
import SparkSessionsp
浏览 67
提问于2019-12-18
得票数 0
1
回答
使用regex语句的case语句
、
、
、
、
在
代码中,我将从另一个已转换为临时视图的
dataframe
创建一个
dataframe
。然后,我将使用
sql
查询
在
最后一个
查询
中创建一个新字段。我想要创建的字段的代码最初来自postgresql,我想知道
在
pyspark
中正确版本的case语句和regex是什么?代码:from
pyspark
.context impo
浏览 1
提问于2021-04-16
得票数 0
回答已采纳
1
回答
与单独
运行
相比,具有多个聚合的吡火花旋转数据要长/冻结得多。
、
、
假设这一步骤是必要的,它似乎无休止地
运行
在16节点4 cpu
上
,每个cpu的内存为30 16,cpu利用率为100% (4)。见 我做错了什么?df_groupby.pivot('day').agg(*aggs)df_groupby.pivot(pivot_col, pivot_distinct_values).agg(a).coun
浏览 1
提问于2021-01-28
得票数 1
2
回答
Spark中的重新分区
、
我们使用Spark的
SQL
对集群
上
的Hive表执行
查询
。如何对
查询
中的列执行REPARTITION (
SQL
-API )?请注意,我们不使用
Dataframe
,而是使用
SQL
(例如,SELECT * from table WHERE col = 1)。我理解
PySpark
在
Dataframe
API中提供了一个相同的函数。 但是,我想知道通过REPARTITION
SQL
-API(通过SEL
浏览 1
提问于2020-06-23
得票数 1
回答已采纳
1
回答
Pyspark
:如何在
dataframe
列为NULL的两列上保留联接
dataframe
和
dataframe
、
我正在为每日增量加载过程编写一个脚本,使用
Pyspark
和一个Hive表,该表最初已经装载了数据。我一直试图通过左侧创建一个UC
dataframe
,将INC
dataframe
和BASE
dataframe
连接到两个PK列src_sys_id & acct_nbr
上
,其中INC
dataframe
fleet_acct_nbr") == base_df("fleet_acct_nbr"),"left_outer").filter(
浏览 4
提问于2022-03-03
得票数 0
3
回答
Dataframe
API与Spark.
sql
[重复]
、
、
这个问题在这里已经有答案了:
在
Spark
SQL
中编写
SQL
与使用
Dataframe
API(4个答案) 4天前就关门了。用
Dataframe
API格式而不是Spark.
sql
查询
编写代码有什么显著的优势吗? 我想知道催化剂优化器是否也会对spark.
sql
查询
起作用。
浏览 103
提问于2021-02-25
得票数 0
回答已采纳
2
回答
如何在星火中的AWS Glue created
Dataframe
上
运行
SQL
SELECT?
、
、
、
我
在
AWS中有以下工作,它基本
上
是从一个表中读取数据并在S3中将其提取为一个csv文件,但是我想在这个表
上
运行
一个
查询
(A Select、SUM和GROUPBY),并希望将该输出获得给CSV,我如何在AWS
浏览 1
提问于2019-05-21
得票数 1
回答已采纳
1
回答
将Hadoop中的大数据导入Spark的有效方法
、
、
由于我
在
大数据领域才刚刚起步,我正在寻求关于如何将一些数据放入Spark以进行分析的最有效方法的建议。
SQL
查询
相当大,有多个子
查询
,每个子
查询
都有自己的"when“、"group by”等。如果我
运行
一个spark
sql
查询
并使用
pyspark
将其保存到一个
dataframe
中,或者如果我将每个子
查询
提取到不同的spark
dataframe
中并使用spa
浏览 20
提问于2021-02-07
得票数 0
1
回答
Pyspark
Shell中的HiveMetaStore错误,但Jupyter Notebook中没有
、
、
、
当我尝试使用
pyspark
dataframe
或
sql
时,我遇到了一件奇怪的事情。当它在ipython笔记本或python控制台中工作时,当我
在
pyspark
shell中
运行
它时,我得到了"javax.jdo.JDOFatalInternalException: Error creating简而言之,如果我
在
iPython笔记本或简单的python终端中
运行
以下命令,一切都会正常工作: import findspark findspark.
浏览 35
提问于2019-05-13
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券