腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
spark
数据
帧
中
执行
字符串
作为
查询
、
、
我使用了以下
数据
:c1,c2,c3,c4k5,j,ee,lc1,avc2,c3,avc4k2,b,bb,fk4,d,dd,hval PRIM_CHECK="c1,c3".split(",").toList val COLUMN_UNCHANGE="+""+check+"&q
浏览 11
提问于2017-08-10
得票数 2
回答已采纳
1
回答
Apache
Spark
多个聚合
、
、
例如,我
在
Scala中使用Apache
spark
对
数据
帧
中
的多个列运行聚合select上面的例子这样的
查询
字符串
是为我想要聚合的每个变量编译的,我通过
Spark
sql上下文
执行
每个
字符串
,以创建代表相关聚合的相应
数据
帧
我的问题的本质是,我将不得不对数千个变量<e
浏览 1
提问于2015-10-30
得票数 0
1
回答
使用hive优化hive
数据
聚合
、
、
、
、
我有一个带有followig模式(event_id,country,unit_id,date)的hive表(8,000,000条记录),我需要将这些
数据
导出到一个文本文件
中
,满足以下要求:1- event_id使用
spark
完成这项工作的最佳性能明智解决方案是什么? 注意:这应该是一个批处理作业。
浏览 6
提问于2017-05-05
得票数 0
7
回答
使用哪种
查询
来获得更好的性能,是
在
SQL中联接还是使用Dataset API?
、
、
在
使用
spark
、*
Spark
sql join*和*
spark
dataframe join*从HBASE获取和操作
数据
时,哪个更快?
浏览 2
提问于2016-06-01
得票数 2
1
回答
如何优化巨大的
spark
数据
帧
SQL
查询
来比较来自
spark
streaming RDDs的值?
、
、
、
我正在创建一个使用火花SQL (
数据
帧
)和火花流的演示。我不是火花专家,所以我需要一些帮助!我从一个
数据
库加载了大约100万个对象到
spark
Dataframe,我
执行
SQL
查询
来匹配一些字段和来自
spark
streaming的实时
数据
。现在,问题是,对于具有100万行和几列的
数据
帧
,即使DF持久存储在内存
中
,上面的SQL
查询
也可能需要一些时间才能
执行
。我有一
浏览 1
提问于2015-06-27
得票数 2
1
回答
在
Spark
SQL
中
传递参数
、
我需要在
Spark
SQL
中
传递参数。例如,我有以下
查询
作为
Val时间戳=
spark
.sql("select timestamp from tablea "),现在,我有另一个
查询
要在where类
Spark
.sql
中
传递这个时间戳(s“select但是上面的
查询
返回不匹配的表达式错误。有没有人能提个解决方案
浏览 1
提问于2020-02-04
得票数 0
2
回答
Pyspark:通过ID和最近日期向后加入2个
数据
帧
、
、
、
在
pyspark (和一般的python )
中
执行
两个
数据
帧
的滚动连接时,我遇到了很多问题。我希望将两个pyspark
数据
帧
通过它们的ID和最近日期反向连接在一起(这意味着第二个
数据
帧
中
的日期不能晚于第一个
数据
帧
中
的日期) Table_2:期望的结果:从本质上讲,我知道SQL
查询
可以做
spa
浏览 1
提问于2020-08-08
得票数 2
2
回答
什么是Apache
Spark
(SQL)
中
的Catalyst Optimizer?
、
我想知道更多关于
在
Apache ( PySpark )中使用Catalyst Optimizer的信息,
在
pyspark
数据
帧
中使用Catalyst Optimizer是可能的。
浏览 23
提问于2019-05-18
得票数 1
2
回答
当编码时Row模式未知时,如何将string与Row合并以创建新的
spark
dataframe?
、
、
、
、
我已经创建了一个函数,它接受一行
作为
输入,并给出一个
字符串
作为
输出。我计划将此函数应用于不同模式的各种
数据
帧
。这些
数据
帧
非常庞大,每个
数据
帧
有数百万行,但每个
数据
帧
都有一个定义好的模式 我想创建另一个函数,它将调用第一个函数,将函数的输出
字符串
与它发送到函数的行合并,并创建一个新的
数据
帧
,该
数据
帧
将
作为
浏览 46
提问于2019-10-15
得票数 0
回答已采纳
3
回答
我可以将pandas
数据
帧
转换为
spark
rdd吗?
Pbm: a)读取一个本地文件到Panda dataframe
中
,比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe
中
。c)需要使用
spark
将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
1
回答
将MySQL更新语句转换为Amazon
我有一个python脚本,它使用MySQL从CSV文件
中
清除一些
数据
。我想把这个脚本变成Glue可以使用的东西,但是我不知道Glue可以使用的SQL语法。这是我需要修改的python / mysql脚本
中
的语句: SET identity_LineItemIdbill_BillType=NULLIF(bill_BillType,
浏览 1
提问于2019-09-05
得票数 0
回答已采纳
1
回答
在
Spark
中
聚合大型
数据
集
、
、
、
、
", "state") sum("power").alias("totalPower"), ) 它是
在
具有大约100 GB RAM的集群上
执行
的。
浏览 0
提问于2018-04-20
得票数 5
回答已采纳
1
回答
当从文件加载时,
Spark
会在内存中保留DataFrame吗?
、
、
如果我像这样创建一个
数据
帧
:
spark
实际上是将
数据
(从csv文件)加载(/copy)到内存
中
,还是
作为
分布式
数据
集加载到底层文件系统
中
?我之所以这样问,是因为
在
加载df之后,底层文件
数据
<
浏览 1
提问于2019-10-25
得票数 2
3
回答
Apache可以用作
数据
库替换吗?(例如替换Mysql)
、
、
我需要一个可伸缩的
数据
库解决方案,它可以扩展到多个工作节点,并且我遇到了Apache,它看起来非常强大的弹性。我可以用它
作为
Mysql的替代品吗?我尝试过创建、读取、更新、删除DataFrame
中
的值,但它似乎不是为此目的构建的吗?我(目前)能找到更新和行的方法.这几乎就像是一旦有了
数据
就可以
查询
数据
,但不适合插入
数据
。如果它不能用作
数据
库.这是否意味着星火只是用于分析?如果需要实时信息,
浏览 4
提问于2020-02-07
得票数 1
回答已采纳
2
回答
Spark
dataframe将行
中
特定列的值替换为空值
、
、
、
、
在
尝试用空值替换
Spark
dataframe的特定列的值时,我遇到了一个问题。我有一个超过50列的
数据
帧
,其中两列是键列。我想创建一个具有相同模式的新
数据
帧
,并且新
数据
帧
应该具有来自键列的值和非键列
中
的空值。) 当我
在
old_df
中
只有
字符串
类型的列时,这种方法很好。为了避免这种情况,我尝试将
浏览 18
提问于2018-08-29
得票数 1
回答已采纳
1
回答
Spark
问题:如果我不缓存
数据
帧
,它会被多次运行吗?
、
、
如果我不缓存使用带有limit选项的
spark
SQL生成的dataframe,当我编辑得到的dataframe并显示它时,我会得到不稳定的结果吗? 描述。我有一个类似下面的表格,它是通过使用带有limit选项的
spark
SQL生成的: +---------+---+---+---+---++--1| 0| 0| 10| 17|+---------+---+---+---+---+ 如果我添加一列来获得行和,并再次show()它,
浏览 6
提问于2021-04-21
得票数 0
回答已采纳
1
回答
pyspark dataframe是否
在
第一次加载时缓存
、
我有一个通过
spark
sql
查询
从hive datastore加载的pyspark dataframe。我知道只有当我在
数据
帧
上调用show()这样的操作时,
查询
才会
执行
。如果我在
数据
帧
上多次调用一个操作,
查询
是否会被重新
执行
,或者是否可以缓存它?
浏览 26
提问于2018-01-04
得票数 0
回答已采纳
1
回答
在
foreachPartition
中
执行
Mysql
查询
spark
运行缓慢
、
我想在
spark
中
的foreachparition
中
执行
mysql
查询
,并最终将所有
查询
结果放到一个
数据
帧
中
。{ rowAccumulator.add(result)然后将rowAccumulator转换为
数据
帧
例如,第一个
查询
花费130ms,第20个
查询
可能花
浏览 52
提问于2018-06-09
得票数 0
1
回答
spark
.read。从零件文件读取
数据
时,将空
字符串
读取为null
、
、
让我们考虑包含以下
数据
的csv文件 Id、职务、年份 1,,2000 CSV读卡器代码: var inputDFRdd =
spark
.emptyDataFrame.rdd .option("mode", "FAILFAST")
浏览 49
提问于2021-09-16
得票数 0
1
回答
如何将值从一个dataframe传递到另一个dataframe?
、
、
、
> val a=
spark
.sql(select max(CID) as C_ID from AAA > 我必须将C_ID值
作为
参数传递到
数据
帧
下面的where条件。我不应该使用子
查询
的概念,因为
数据
在数百万
中
,多个表
在
联接
中
,这里我提到了示例
查询
。
浏览 2
提问于2020-03-03
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券