腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
分区
JSON
的
Spark
分区
投影
/
下推
和
模式
推理
、
、
、
我想以
JSON
格式读取
分区
数据
的
子集,
使用
spark
(3.0.1)从
JSON
推断
模式
。当我试图提前找出我
的
分区
路径并将它们传递给read(paths :_*)时,
spark
抛出一个错误,它无法推断
模式
,我需要手动指定
模式
。(请注意,在这种情况下,除非我指定basePath,否则
spark
也会丢失type
和
dt列,但这没问题,我可以接受。)我想,
浏览 20
提问于2021-01-27
得票数 4
1
回答
不具有
分区
列性能
的
火花
下推
滤波器
我有一个关于
spark
中
的
过滤
的
问题,当你不在过滤器中包括
分区
列时。假设我有以下按日期
分区
的
数据: part-0001.parquet数据有一个名为"action“
的
列,其中大约30%
的
数据值为0,其余
的
数据值为1
spark
.read.parquet(&
浏览 2
提问于2020-08-02
得票数 0
1
回答
星火中
的
蜂箱
分区
和
桶形支持不像预期
的
那样工作
、
在
使用
S3中
的
分区
时,
Spark
逐个列出所有
分区
,这将消耗time.Rather &它应该在元存储表中查找
分区
&应该立即进入
分区
。我尝试以125个partitions.When为例,通过附加
分区
列值来计算S3的确切位置&尝试访问它,它在5sec.But中执行,如果我试图让
Spark
计算出
分区
,它将列出所有
分区
,这本身需要超过30秒如何让
Spark
使用
浏览 1
提问于2017-10-22
得票数 0
回答已采纳
1
回答
在MemSQL中
使用
分区
下推
实现星火中
的
并行化
、
、
、
我在MemSQL中有一个列存储表,其
模式
类似于下面的
模式
:source_id TEXT,metric1 FLOAT,±--------------±----------------±-------------±-------±-----------+ 我
的
问题是关于
分区
下推
我
的
理解是,有了它,我们可以
使用
机器
的
浏览 0
提问于2019-02-26
得票数 3
1
回答
星星之火SQL
和
Cassandra联接
、
、
我
的
Cassandra
模式
包含一个表,其中一个
分区
键是一个时间戳,一个parameter列是一个集群键。 每个
分区
都包含10k+行。这是以每秒一个
分区
的
速度记录数据。另一方面,用户可以定义“数据集”,而我有另一个表,其中包含“数据集名称”作为
分区
键,以及一个集群列,该列是引用另一个表
的
时间戳(因此"dataset“是
分区
键列表)。当然,我想做
的
事情看起来像是卡桑德拉
的
反
模式</em
浏览 2
提问于2016-02-14
得票数 3
1
回答
我如何实现火花放电卡桑德拉“基于键”连接器?
、
、
、
我
使用
的
是
Spark
2.4.7,并且我已经实现了普通
的
吡火花卡桑德拉连接器,但是有一个用例,我需要实现基于键
的
连接器,我没有得到有用
的
博客/教程围绕它,有人请帮助我。我试过普通
的
火花放电-卡桑德拉连接器,它工作得很好。现在,我希望实现基于键
的
连接器,我找不到。 Cassandra通常加载整个表,但我不想加载整个表,而是在源上运行查询并获取所需
的
数据。通过基于键
的
方法,我想
使用
一些键来获取数
浏览 3
提问于2022-03-25
得票数 1
1
回答
星火
的
分区
剪枝
和
谓词
下推
有什么区别?
我正在研究星火优化方法,并遇到了实现优化
的
各种方法。但有两个名字引起了我
的
注意。他们说:
Spark
是一种性能优化,它限制查询时读取
的
文件
和
分区
的
数量。在对数据进行
分区
之后,匹配某些
分区
筛选条件
的
查询通过允许
Spark
只读取目录和文件
的
子集来提高性能。 火花将尝试将
浏览 1
提问于2020-03-10
得票数 3
2
回答
不要忽略空
分区
、
、
、
、
我试图通过
使用
下推
谓词读取数据集
的
子集。我
的
输入数据集包含存储在s3上
的
1,2TB
和
43436块文件。
使用
下推
谓词,我应该读取1/4
的
数据。 看到星火UI。我看到作业实际上读取1/4
的
数据(300 of ),但是在作业
的
第一阶段仍然有43436个
分区
,但是只有1/4
的
分区
有数据,其余
的
3/
浏览 2
提问于2020-06-25
得票数 6
回答已采纳
1
回答
SparkSQL通过Cassandra
分区
键范围限制查询
、
假设我
的
主键是一个timestamp。我似乎无法让它工作,即使我
使用
了token()。另外,我不能在
分区
键上创建二级索引。 这应该怎么做呢?
浏览 2
提问于2016-03-14
得票数 0
1
回答
Spark
scala谓词
下推
和
分区
在处理
和
存储方面的区别是什么
、
我正在
使用
数据帧,并且我遇到了这些术语。如果可能的话,我不能完全理解它们,你能在这两个方面都举一个例子吗?
浏览 8
提问于2020-05-07
得票数 0
1
回答
星星之火:在写入文件类型时不理解行为。
、
、
我有这样
的
csv记录:name | age | entranceDate | Tom| 12 | 2019-10-01 |Mary | 15 | 2019-10-01 | ));} sqlContext
浏览 1
提问于2019-09-23
得票数 3
回答已采纳
1
回答
显示
Spark
+Parquet程序中读取
的
字节数
、
、
我正试图通过利用
分区
和
下推
来优化一些
Spark
查询
和
一个Parquet
模式
。我
的
理解是,这些技术允许跳过大部分
的
拼图文件。 有没有办法显示
Spark
读取
的
字节数与Parquet文件
的
总大小之间
的
关系?另外,读操作
的
数量是多少?(我
使用
的
是S3,因此我希望最小化由于S3应用程序接口调用
的
开销而导致
的</e
浏览 0
提问于2019-03-14
得票数 0
2
回答
将蜂巢查询推送到数据库级别
、
、
、
我有1亿条记录
的
表格数据,每条记录都有15列。我需要查询这些数据
的
3列,并筛选出用于进一步处理
的
记录。方法1将数据存储为中
的
csv或parquet。当我需要查询时,读取整个数据并
使用
Spark
进行查询。 在方法2中,是否将查询推送到数据库级别(HDFS),并且只读取并返回满
浏览 0
提问于2018-04-10
得票数 3
1
回答
来自Kafka主题
的
KSQL流保持相同
的
分区
值
、
、
源主题有50个
分区
,目标流也有50个
分区
,但问题是源
分区
1将在目标流中随机
分区
(示例
分区
10)。
模式
: CREATE STREAM SCHEMA_BASE ( ID VARCHAR,TIMESTAMP VARCHAR,CITY VARCHAR,Partition INTEGER) WITH ( KAFKA_TOPIC= '
SPARK
_EVENTS',VALUE_FORMAT = '
JSON
',TIMESTAMP_
浏览 20
提问于2021-07-15
得票数 0
回答已采纳
1
回答
在databricks dataframe中读取
json
文件只有一个
分区
、
、
我们有大约500行
的
json
格式
的
源文件,但是如果
JSON
文件是完全扁平
的
,则有750百万条记录。 无论我做什么,我
的
数据砖笔记本都是在一个
分区
中读取源文件。例如,我设置了洗牌
分区
,禁用了AQE,并设置了
分区
,但仍然只将文件加载到单个
分区
中。df =
spark
.read.load(文件名,格式=‘
json
’,multiline=True,编码= 'UTF-8',
浏览 3
提问于2022-06-08
得票数 0
1
回答
Spark
JDBC关系数据库取数优化
、
a)与传统
的
java JDBC调用相比,
Spark
有没有一种方法可以优化从关系数据库获取数据。b)如何在运行
Spark
查询时减少数据库
的
负载,因为我们将为所有查询直接命中生产数据库。假设
Spark
报告案例
的
生产中有3000万条订单记录
和
1.5亿条订单行记录。
浏览 2
提问于2015-08-18
得票数 2
1
回答
如何在Apache
Spark
中将
JSON
文件转换为常规表DataFrame
、
我有以下
JSON
字段 {"constructorId":1,"constructorRef":"mclaren","name":"McLaren","nationality":"British","urlnationality":"German","url":"http://en.wikipedia.org/wiki/BMW_Sa
浏览 45
提问于2021-11-13
得票数 0
回答已采纳
1
回答
Spark
和
Executor在本地
模式
下
的
行为
在StackOverflow中有几个关于
Spark
的
本地
模式
的
问题得到了很好
的
回答,但我找不到我
的
问题
的
答案,那就是; 我知道在本地
模式
下,
spark
为驱动程序
和
executor创建了一个JVM,所以这意味着我们有一个executor,它
的
内核数量与我们
的
计算机(假设8个)相同(如果我们
使用
Local*运行它),这也是默认
的
Spark</
浏览 38
提问于2021-01-18
得票数 1
1
回答
使用
hive -无法正确创建
分区
并将表保存在dataframe中
、
、
、
我试图用很少
的
转换(添加日期)将
json
文件转换为parquet,但是在将数据保存到parquet之前,我需要对数据进行
分区
。 df_temp =
spark
.read.
json
(data_location) \ cond3如果
使用
USING而不是LIKE,则会出现以下错误: pyspark.sql.utils.AnalysisException:“当表
浏览 0
提问于2019-09-04
得票数 0
回答已采纳
2
回答
Apache
Spark
是否从目标数据库加载整个数据?
、
、
、
我想
使用
Apache
Spark
并通过JDBC连接到Vertica。似乎
Spark
从目标服务器加载了所有数据。这是我
的
代码: .option("url" , u
浏览 5
提问于2017-02-16
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark如何读取一些大数据集到本地机器上
Spark SQL,DataFrames 以及 Datasets 编程指南
什么是Spark SQL,它的作用是什么?
Spark实战(5)_Spark Core核心编程
HBaseSQL及分析-Phoenix&Spark
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券