腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(751)
视频
沙龙
1
回答
如何
从
YugabyteDB
YCQL
连接器
的
HDFS
或
S3
加载
trustStore
文件
?
[用户在
YugabyteDB
Community Slack上发布
的
问题] 我想使用spark应用程序
从
YCQL
读取数据,我使用
的
是spark-cassandra-connector_2.12-3.0"spark.cassandra.connection.ssl.enabled": "true" "spark.cassandra.connection.ssl.
trustStore
.password": "changei
浏览 17
提问于2021-11-09
得票数 0
1
回答
卡夫卡-连接
文件
接收器
连接器
以拼花
文件
格式写入
、
、
我正在寻找卡夫卡连接
连接器
,将写
从
卡夫卡到当地
的
文件
系统,以拼花
文件
格式。我不想使用
hdfs
或
s3
接收器
连接器
。
浏览 2
提问于2022-04-07
得票数 0
回答已采纳
1
回答
Kafka Avro控制台消费者/制作人
从
文件
到
文件
、
、
如果我有一个模式字符串可以提供给控制台使用者和生产者,那么是否可以使用Avro控制台使用者将Avro编码
的
消息保存到
文件
中,并从该
文件
中读取来写入使用Avro控制台生成器
的
另一个主题?这是一个支持开箱即用
的
用例,还是我需要为它编写一个shell脚本?
浏览 2
提问于2021-11-02
得票数 1
回答已采纳
1
回答
使用Azure数据湖
的
Presto查询引擎
、
、
我需要部署一个presto服务器,它可以帮助我查询以Avro
文件
格式存储在ADLS中
的
数据。我已经通过了,它似乎是用来作为目录/
连接器
在预录查询
从
ADLS。我可以绕过Hive并有任何
连接器
从
ADLS中提取数据吗?
浏览 2
提问于2019-02-28
得票数 0
回答已采纳
1
回答
如何
使用Hadoop MapReduce将数据
从
aws
s3
导入到
HDFS
、
、
我知道Apache Hadoop提供了discp来将
文件
从
aws
s3
复制到
HDFS
。但是看起来效率不是很高,日志记录也不灵活。在我
的
项目中,每次
文件
传输到
HDFS
成功
或
失败后,都需要以我们自定义
的
格式写入日志。由于有大量
的
数据
加载
,使用Hadoop MapReduce将aws数据
加载
到
HDFS
集群绝对是最有效
的
,比如说我将编写一个类似于disc
浏览 3
提问于2016-05-09
得票数 0
2
回答
Confluent Connect :同步运行多个接收器
连接器
、
、
我们使用连接到Kafka
的
S3
接收器
连接器
,并将数据
加载
到
S3
buckets.Now --我希望使用Copy命令将数据
从
S3
存储桶
加载
到are,因为我正在创建自己
的
自定义connector.Use情况--我希望以同步方式
加载
通过
S3
创建
的
数据到Redshift,下一次
S3
连接器
应该替换现有
文件
,并再次将数据
加载</em
浏览 0
提问于2018-08-17
得票数 0
回答已采纳
1
回答
从
HDFS
加载
地块
文件
的
速度比
从
S3
加载
的
速度慢。可能
的
原因是什么?
、
我在
HDFS
中有成百上千
的
拼图
文件
。我在亚马逊网络服务
S3
中也有相同
的
文件
。在电子病历集群上,我运行了一个机器学习模型,它可以
从
HDFS
或
S3
获取其学习数据。当它从
HDFS
加载
数据时,它花费
的
时间比
从
S3
加载
数据时要长。难道不应该是相反
的
吗?出现这种情况
的
原因是什么? 显然,
浏览 1
提问于2018-11-15
得票数 0
3
回答
加载
本地
文件
(而不是
HDFS
)在Spark失败
、
我有一个问题--
如何
用sc.textFile在PySpark上
加载
本地
文件
(不是在
HDFS
上,也不是在PySpark上)。这是非常有帮助
的
,你给我很好
的
建议,
如何
加载
本地
文件
。 我确认了
从
HDFS
或
S3
works
浏览 7
提问于2016-02-01
得票数 20
3
回答
当一个
文件
从
S3
桶
加载
时,Spark创建了多少个分区?
、
、
、
如果
文件
是
从
HDFS
加载
的
,默认情况下,spark会为每个块创建一个分区。但是,在从
S3
桶
加载
文件
时,
S3
如何
决定分区呢?
浏览 7
提问于2016-05-11
得票数 13
回答已采纳
3
回答
EMR上
的
火花究竟是
如何
从
S3
中读取
的
?
、
、
、
关于将
s3
上
的
文件
读入带有Spark
的
EMR集群中
的
实际机制,只需问几个简单
的
问题: spark.read.format("com.databricks.spark.csv").load("
s3
://my/dataset/").where($"state" === "WA")是否将整个数据集传送到EMR集群
的
本地
HDFS</
浏览 0
提问于2018-01-20
得票数 1
回答已采纳
1
回答
S3
并行读写性能?
、
、
、
考虑一个场景,其中Spark (
或
任何其他Hadoop框架)
从
S3
读取一个大
文件
(比如1TB)。多个火花执行器
如何
从
S3
并行读取非常大
的
文件
。在
HDFS
中,这个非常大
的
文件
将分布在多个节点上,每个节点都有一个数据块。在对象存储中,我假定整个
文件
将位于单个节点(忽略副本)。这将大大降低读取吞吐量/性能。类似地,
HDFS
中
的</em
浏览 2
提问于2019-01-15
得票数 12
回答已采纳
2
回答
[随机出现][Spark][AWS] FileNotFoundException在检查点
文件
夹中,但
文件
存在
、
、
我在AWS上运行一个计划好
的
(每天一次)星火应用程序,该应用程序是基于spark.ml.recommendation.ALS
的
推荐算法,数据位于AWS
S3
上,应用程序将推荐输出给一组用户。为了保证迭代算法
的
鲁棒性,我使用了spark
的
检查点函数。我在AWS
S3
上设置了检查点
文件
夹。 有时候一切都很好。但有时,即使
文件
实际存在,spark应用程序也无法在检查点
文件
夹中找到该
文件
。内部,执行程序5):没有这样
浏览 0
提问于2019-10-31
得票数 1
回答已采纳
1
回答
Sqoop
从
voltdb导出数据
、
、
、
我正在尝试将数据
从
votldb表导入配置单元,下面是我正在使用
的
命令我
的
sqoop版本是'1.4.5.2.2.6.3-1‘ 有没有人成功地将表
从
vo
浏览 1
提问于2015-09-17
得票数 0
1
回答
利用Azure数据工厂
从
DocumentDB文档中
的
数组中提取数据到数据库
、
我需要从DocumentDB中
的
文档中提取数组,然后使用Azure Database将其复制到SQL数据库。我需要在本文
的
“jsonNodeReference示例2:交叉应用来自数组
的
相同模式
的
多个对象”中实现使用和jsonPathDefinition
的
相同功能:
浏览 2
提问于2017-07-30
得票数 0
1
回答
人造板与数据库
、
我正试图了解以下两种选择中
的
哪一种更好,尤其是在星火环境下: 使用任何数据库来存储和访问数据。我正在研究数据管道设计,并试图了解上述两种选择中
的
哪一种将导致更优化
的
解决方案。
浏览 3
提问于2017-11-05
得票数 7
2
回答
部件
文件
的
大小对Spark性能是否起作用?
、
、
、
我试图查询包含大量部件
文件
(avro)
的
hdfs
。最近,我们进行了一项减少并行性
的
更改,因此部件
文件
的
大小增加了,每个部件
文件
的
大小在750 GB到2GB之间(我们使用火花流在10分钟内将数据写入
hdfs
,因此这些
文件
的
大小取决于我们从上游处理
的
数据量部件
文件
的
数量将在500个左右。我想知道这些部件
文件
的
大小&
浏览 1
提问于2018-11-29
得票数 0
回答已采纳
1
回答
从
S3
上
的
文件
中计算数字
的
avg
、
、
我试图计算在
S3
上
的
txt
文件
和AWS上
的
星火星火中给出
的
数字
的
平均值。 JavaSparkContext jsc = new JavaSparkContext(sparkConf); //RE
浏览 0
提问于2018-10-18
得票数 0
回答已采纳
1
回答
在数据科学家衰老和死亡之前,真正
的
大数据是
如何
导入
HDFS
的
?
、
、
、
我是Hadoop
的
新手,我相信我开始发现数据分析(“离线”)与网络应用
的
超低延迟世界有多大不同。我仍然很难理解
的
一件主要事情是,真正
的
“大数据”最初是
如何
进入
HDFS
的
。假设我有500 of
的
数据存储在各种系统(关系数据库管理系统、NoSQL、日志数据等等)中。我
的
理解是,如果我想编写MR jobs来查询和分析这些数据,我需要首先将其导入
HDFS
中。但是,即使我在每个不同
的
系统和我
的</em
浏览 0
提问于2015-06-26
得票数 0
回答已采纳
1
回答
NIFI (
S3
到
HDFS
)
我试图使用
S3
、fetchS3object和PutHDFS将数据
从
HDFS
复制到
HDFS
。
S3
存储桶中
的
数据结构如下,需要将其复制到具有相同
文件
夹结构
的
HDFS
中(
文件
夹名称是动态
的
)。
HDFS
,但不能将/dev/..parent folder1 1/subfolder1 1/filename1.txt重命名为其最终
文件
名。
浏览 4
提问于2017-12-21
得票数 0
2
回答
将Datadog数据集成到雪花中
、
我
的
团队正试图将datadog
的
朗姆酒数据集成到雪花中,供我们
的
数据科学家使用。这个是可能
的
吗?如果是的话,怎么做?到目前为止,我已经找到了关于
如何
将来自雪花
的
数据集成到datadog仪表板中
的
文档,但没有找到相反
的
方法。
浏览 15
提问于2022-04-11
得票数 -1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
这可能是北半球最暖的Kafka Connect数据管道教程:2
基于 Hudi 和 Kylin 构建准实时高性能数据仓库
利用 JuiceFS 给 Flink 容器启动加速
Alluxio跨集群同步机制的设计与实现
数据湖和SQL并不矛盾
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券