腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(190)
视频
沙龙
1
回答
火花
读取
分区
avro
比
指向
精确
位置
慢
得多
、
、
、
我正在尝试
读取
分区
的
Avro
数据,该数据是根据年、月和日进行
分区
的,这似乎
比
直接
指向
路径要慢
得多
。在物理计划中,我可以看到
分区
筛选器正在传递,因此它不会扫描整个目录集,但它仍然非常
慢
。例如,像这样
读取
分区
的数据 profitLossPath="abfss://raw@"+datalakename+".dfs.core.windows.net/
浏览 13
提问于2020-06-23
得票数 1
回答已采纳
2
回答
使用
火花
红移插入红移
、
、
但通过连接器的
火花
红移,它需要大约7分钟。有任何建议来改善使用
火花
红移的时间吗?
浏览 0
提问于2018-02-07
得票数 3
回答已采纳
3
回答
星火SQL数据存储生命周期
、
、
、
我在中
读取
了一个包含数十亿条记录的蜂巢表,这导致了高磁盘利用率导致作业失败,但是在添加AWS卷之后,作业没有出现任何问题。当spark SQL
读取
一个单元表时,如果我没有显式地指定任何内容,那么数据最初存储的
位置
以及数据的存储的整个生命周期是什么?添加EBS卷是如何解决这个问题的?
浏览 9
提问于2021-11-03
得票数 1
回答已采纳
2
回答
方法来获取任务节点上执行器的核数?
、
、
、
由于这个参数是依赖于实现的(纱线和
火花
独立有不同的策略分配核心)和情景(它可能会波动,因为动态分配和长期作业运行)。我不能用其他方法来估计这一点。(如TaskContext,SparkEnv)1)运行一个包含多个
分区
的1阶段作业( >> defaultParallelism ),并计算每个executorID,因为每个
火花
执行器都使用一个过度配置的线程池。2)与1类似,但n= defaultParallesim除外,我在每个任务中都添加了一个延迟,以防止资源协商器不平衡地分片(快速
浏览 5
提问于2017-07-20
得票数 7
4
回答
与其他格式相比,地板格式的优缺点是什么?
、
、
、
、
Apache Parquet的特点如下: 与
Avro
,Sequence Files,RC文件等相比较,我想要一个关于格式的概述。为什么拼花
比
其他的更有优势?
浏览 14
提问于2016-04-24
得票数 190
回答已采纳
2
回答
为什么Spark认为索引的支持不重要?
、
、
、
我知道索引有一些缺点,比如插入/更新速度
慢
、空间需求等等。但是在我的用例中,我首先处理大量数据并将其加载到Spark中,然后在不作进一步修改的情况下作为一个整体来研究这些数据。Spark对于数据的初始分布式处理和加载非常有用,但是缺乏索引使得交互探索比我预期的要
慢
和麻烦。 那么,我想知道为什么Spark团队认为索引在某种程度上不重要,以至于超出了他们的路线图。
浏览 1
提问于2016-04-29
得票数 55
回答已采纳
1
回答
如何为消费者设置卡夫卡补偿?
、
因此,我有3个问题: 如果Flink使用者崩溃并在几分钟后恢复。
浏览 1
提问于2018-10-31
得票数 2
回答已采纳
4
回答
SQL nvarchar性能
、
、
、
、
大多数字符串都很短,可以用varchar(200)表示,而大约10%的字符串要长
得多
,需要使用varchar(5000)这样的字符串。对比:这些数据很少被更新,我只关心
读取
浏览 0
提问于2009-07-13
得票数 0
回答已采纳
1
回答
当数据在工作节点上可用,但现在有可用于执行任务的计算资源时,在Spark中会发生什么?
、
、
、
我是星火的初学者,我正在努力理解它的架构。我了解到,在理想的情况下,集群管理器将任务分配给运行在处理所需数据的同一节点上的执行器。但是,如果存在数据的节点没有任何可用的执行程序怎么办?
浏览 0
提问于2021-04-15
得票数 0
回答已采纳
2
回答
如何将SQL映像列链接到外部数据库?
、
、
法
比
安
浏览 3
提问于2017-03-22
得票数 0
回答已采纳
3
回答
为什么有些LUKS教程提到用随机数据覆盖
分区
?
、
、
在很多关于luks加密的教程中,人们都说要用随机数据覆盖
分区
,这样加密后数据就无法恢复。我不明白这点。随机数据会被附加到自由空间吗?否则数据就会丢失,不是吗?我有一个未加密的根
分区
和交换
分区
,为了用luks加密,我需要一个未加密的参数,其中安装了引导,以便加载initrd并解密系统的其余部分/ 顺便说一下,我用的是Ubuntu区
浏览 0
提问于2012-01-05
得票数 1
1
回答
为什么这个perl脚本的运行速度比它的c++要慢
得多
呢?
、
a1; printf("GP %d\n", a4); }}对于这个问题,perl真的
比
C
慢
那么多(至少200倍)吗?
浏览 2
提问于2013-10-07
得票数 0
回答已采纳
1
回答
S3并行读写性能?
、
、
、
考虑一个场景,其中Spark (或任何其他Hadoop框架)从S3
读取
一个大文件(比如1TB)。多个
火花
执行器如何从S3并行
读取
非常大的文件。这将大大降低
读取
吞吐量/性能。 类似地,HDFS中的大文件写入也应该
比
S3快
得多
,因为HDFS中的写入将分布在多个主机上,而所有数据都必须通过S3中的一个主机(为简洁而忽略复制)。因此,这是否意味着与大数据世界中的HDFS相比,S3的性能要差
得多
。
浏览 2
提问于2019-01-15
得票数 12
回答已采纳
1
回答
铅笔纸加密技术的几点思考
、
一个现成的垫子,
精确
地穿过纸的分布。所需要的只是索引行和列。在拼图中有洞,黑色区域,这些可以揭示出垫的结构,给出足够多的加密单词。但这些能被接受吗。这让我掌握了真正的加密技术。明文,“以我的名字买”在网格或表格中找到一个字母b,将纸的角放在网格上,这样它就可以对角
指向
b,沿着纸的边缘
指向
两个索引,并
读取
识别带有b的方块的字符。重复一遍。空格可以索引为黑色的方格。为了破译, 获取填字游戏的解决方案,以确定正确的日期和时间,将索引行和列放在适当的
位置
,使用一张纸从网格
读取
明文。显然,“纽约时
浏览 0
提问于2021-01-31
得票数 0
1
回答
Mongodb数组vs对象
、
新的Mongodb,我不知道在使用数组和对象之间有什么含义或好处。如上所述,数组和对象的使用之间的含义和好处是什么? 比如我的案子。这样做的目的是存储一个带有“捕获”时间的文档,以及一个2000个“数据包”计数器的插槽。我使用object来存储数据包看看这个,但显然使用数组似乎更好。应该考虑哪些因素来确定数组或对象是否更合适(例如)?
浏览 0
提问于2013-05-31
得票数 2
6
回答
额外列会破坏MySQL性能
、
我有一张仓库桌子,看起来像这样: id BIGINT(20) UNSIGNED NOT NULL AUTO_INCREMENT, groupId BIGINT(20) NOT NULL, ... many more ids, "txtProperty2" VARCHAR(2
浏览 14
提问于2010-10-01
得票数 6
2
回答
如何将Javascript作为HTML代码存储在网站中
、
、
我在MS中使用Web和Asp.Net。 在这里我的想法,我想请你的意见: 04使用文本文件和类将管理存储在缓存这
浏览 2
提问于2010-12-16
得票数 1
回答已采纳
4
回答
C++向量和列表插入
、
、
、
有人知道为什么在列表中间插入元素
比
在向量中间插入元素更快吗? 我更喜欢使用向量,但如果可以的话,我被告知要使用列表。有人能解释为什么吗?并且总是推荐使用list而不是vector吗?
浏览 0
提问于2013-04-25
得票数 1
回答已采纳
2
回答
关于大量使用的文件存储服务器中的驱动器的问题
、
、
它的峰值在320 to /S左右的随机
读取
,它看起来仍然有一些空间来推动更多。当我查看各种驱动基准时,我看到大多数现代SSD都可以进行50 of /S的随机
读取
。这是否意味着它的比例或多或少是线性的?那么,如果我在raid0中有12个这样的,我可以做大约600 do /S的随机
读取
?raid5降低性能有多严重? 我还听说,如果使用RAID,TRIM就会被禁用,因此性能会下降得更快。我是这么说的?
浏览 0
提问于2010-12-08
得票数 2
回答已采纳
2
回答
处理大数据
、
、
我有一个MySQL数据库,它将插入2000行/秒。这些行表示传感器在特定时刻的值。我的问题是,在这种情况下,怎样才是合适的途径呢?以下是我的想法:创建一个cron作业脚本,解析两个时间段之间可用的值。将上述间隔存储在与原始值分离的数据库中的5个相应表中。使用这种方法,可以保持整洁
浏览 0
提问于2020-01-11
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券