腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
Dataframe
API
与
Spark.sql
[
重复
]
、
、
这个问题在这里已经有答案了: 在Spark SQL中编写SQL
与
使用
Dataframe
API
(4个答案) 4天前就关门了。用
Dataframe
API
格式而不是
Spark.sql
查询编写代码有什么显著的优势吗? 我想知道催化剂优化器是否也会对
spark.sql
查询起作用。
浏览 103
提问于2021-02-25
得票数 0
回答已采纳
1
回答
spark 2.0.0选择不同的不稳定结果
、
、
、
、
我运行pyspark2在spark 2.0.0上vw_ticket = read_csv(...)vw_ticket_in_booking.createOrReplaceTempView('vw_ticket_in_booking')
spark.sql
('sele
浏览 2
提问于2017-08-31
得票数 0
回答已采纳
1
回答
在Spark regexp_replace中使用\P{C}
、
、
、
、
'x')%python display(
spark.sql
浏览 3
提问于2020-06-08
得票数 0
回答已采纳
2
回答
如何解析日期时间?
、
、
我试过以下几种方法这将返回2005-04-24,但没有时间戳。然后我试着但这只是返回了一个错误
浏览 2
提问于2019-09-20
得票数 2
回答已采纳
2
回答
在Spark中,如何将一个
DataFrame
拆分成两个DataFrames?
、
我有一个
DataFrame
A的大数据。总之,它类似于下面的伪代码。
浏览 46
提问于2017-06-26
得票数 1
1
回答
HiveContext vs spark sql
、
、
=conf).getOrCreate()sqlContext.sql ('select * from table')
spark.sql
浏览 11
提问于2018-08-21
得票数 0
2
回答
过滤器
与
Hive where子句
、
、
、
我只是想知道这个火花密码就像这个一样有效率:在第一组中,我们是将所有的单元数据加载到RAM中,还是足够聪明地在执行生成的DAG时过滤蜂巢中的这些值
浏览 2
提问于2020-08-28
得票数 0
回答已采纳
1
回答
在数据帧上使用聚合操作比使用
spark.sql
()直接实现SQL聚合有好处吗?
、
我见过来自数据仓库和SQL背景的人正在使用SQL实现聚合和其他转换逻辑(where spark is the sparkSession object)
dataframe
.createOrReplaceTempView().但是,如果我们看到,我们还有其他选择,比如windows函数或其他选项,它们可以直接在dataframes.Or上实现,甚至我们可以将函数注册为UDF,并可以在
dataframe
上实现。假设我需要在数据帧CITY_CENSUS上实
浏览 1
提问于2019-05-05
得票数 0
1
回答
是否有可能加入TempView中的火花,因为它正在抛出不能解决符号错误
、
、
我正在尝试加入Apache中的3视图
与
scalafinaldf.createOrReplaceTempView("product{
DataFrame
, SaveMode, SparkSession}以下连接视图 val result = customer.join
浏览 1
提问于2020-08-01
得票数 1
回答已采纳
2
回答
SQL
与
Spark中的SQL类似
、
、
、
这是我正在运行的查询: val joined =
spark.sql
("SELECT A.revision, B.revision FROM RAWDATA A LEFT JOIN TPTYPE B ON
浏览 0
提问于2016-11-07
得票数 10
回答已采纳
1
回答
Pyspark最昂贵的产品
、
、
我正在试着用PySpark买到最贵的产品。基本上,我必须将这个查询从SQL转换为pyspark:FROM lotstempLIMIT 1
浏览 0
提问于2020-05-06
得票数 0
1
回答
批量删除表(Pyspark)
我有一个有很多表的数据库。我希望删除该数据库中所有在批处理中的名称中有"oct“的表。有办法这样做吗?我在网上找不到明确的答案,我不想犯错误,删除不该删除的表格。谢谢你的帮助!
浏览 4
提问于2022-01-07
得票数 0
1
回答
用标量乘PySpark数组列
、
、
、
我试图用标量乘以数组类型化的列。这个标量也是来自同一个PySpark数据的值。df = sc.parallelize([([1, 2],3)]).toDF(["l","factor"])| l|factor||[1, 2]| 3|我想要做到的是:| l|factor||[3, 6]| 3|这就是我尝试过的:
浏览 1
提问于2020-06-19
得票数 3
回答已采纳
1
回答
Hadoop 3和
spark.sql
:同时使用HiveWarehouseSession和
spark.sql
、
、
、
、
在此之前,我可以完全在
spark.sql
api
中工作,以便
与
蜂巢表和火花数据帧进行交互。我可以查询使用同一个
api
注册的spark或hive表中的视图。要对蜂窝表执行任何操作,必须使用“HiveWarehouseSession”
api
,而不是
spark.sql
api
。是否有任何方法继续使用
spark.sql
api
并与hive交互,或者我必须重构我的所有代码?hive = HiveWarehouseSession.session(
浏览 0
提问于2019-08-29
得票数 1
1
回答
使用列值作为火花
DataFrame
函数的参数
、
、
-+---+df = spark.createDataFrame([("X", 3),("Y", 1),("Z", 2)], ["letter", "rpt"])""" query = query.replace("\n", " ") # replace newlines with spaces, avoid EOF
浏览 2
提问于2018-07-02
得票数 11
回答已采纳
2
回答
如何比较PySpark中两个数据帧的计数?
、
、
我的代码如下所示: df1 =
spark.sql
("""SELECT Col1, Col2, Col3, Col4, Col5 FROM Table1""")df2.createOrReplaceTempView("df2&qu
浏览 8
提问于2020-08-21
得票数 1
回答已采纳
2
回答
Spark DataDrame中=== null
与
isNull的区别
、
、
、
、
我对我们使用时的区别感到有点困惑。我在===中得到的相同数据帧计数为null,但在isNull中得到的计数为零。请帮我理解其中的区别。谢谢
浏览 0
提问于2017-01-08
得票数 22
回答已采纳
1
回答
如何根据主键从表中删除
重复
行?
、
、
我在
Dataframe
中加载了一个表,我尝试在PKs中使用groupBy。df_remitInsert =
spark.sql
("""SELECT * FROM trac_analytics.mainremitdata""") df_remitInsert_filter =我想从df_remitInsert实现全部数据,这些数据是完全
重复
的w.r.t主键。
浏览 9
提问于2022-05-05
得票数 0
1
回答
NotImplementedError在Apache中调用pandas_profiling.ProfileReport.to_widgets()时
、
、
、
、
__version__) check_
dataframe
self.get_type, args))](*args,
浏览 3
提问于2022-09-08
得票数 3
回答已采纳
1
回答
udf来自SparkSession和udf来自pyspark.sql.functions有什么区别?
、
、
、
我怀疑为什么有两个
API
可用,spark.udf有一个叫做寄存器的方法。我认为注册udf是必要的。那么,为什么它在pyspark.sql.functions中不可用。为什么只适用于第一种情况?
浏览 4
提问于2021-12-20
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券