腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
运行示例时出错
java
、
hadoop
、
apache-spark
、
hive
我有下面的,可以在官方的apache/
spark
上找到。我花了很多时间了解如何在Hortonworks Hadoop Sandbox
中
运行这个示例,但没有成功。下一步是准备在我的Hadoop
中
运行的代码--问题从这里开始,我可能设置了一些错误。这就是我要做的: 将SparkSession设置为主从
本地
,将
spark
.sql.warehouse.dir更改为hive.metastore.uris,并将节俭://localhost:9083("LOAD DATA
浏览 2
提问于2017-12-18
得票数 1
回答已采纳
1
回答
Spark
从
本地
读取
文件
并在
hdfs
中
写入
apache-spark
我在
本地
系统中有一个
文件
。我想在
本地
使用
Spark
读取
它,然后使用相同的
spark
程序在
HDFS
中
写入
它,这可能吗?
浏览 46
提问于2020-04-29
得票数 0
回答已采纳
1
回答
Spark
作业将
写入
本地
文件
系统还是
从
本地
文件
系统
读取
?
apache-spark
、
distributed-computing
、
bigdata
对于
Spark
作业,它的输入和输出都在
HDFS
中
。然而,我想知道,在执行
Spark
作业的过程
中
,是否有任何东西需要
写入
本地
文件
系统或
从
本地
文件
系统
读取
?
浏览 3
提问于2017-08-30
得票数 0
1
回答
Apache
Spark
在哪里对输出进行压缩?
azure
、
apache-spark
、
apache-spark-sql
、
azure-blob-storage
我们有一个在独立集群模式下运行的
Spark
作业,它从
HDFS
读取
数据,使用我们的自定义压缩器组件进行压缩,并将.zip
文件
写入
Azure blob存储。我们的
Spark
和
HDFS
托管在同一数据中心(
本地
)。例如,
Spark
作业正在从
本地
HDFS
读取
8 GB的
文件
,
并在
Azure blob存储上创建3 GB的.zip,在这种情况下,
Spar
浏览 13
提问于2021-07-23
得票数 0
回答已采纳
1
回答
星星团- hadoop上的读/写
hadoop
、
apache-spark
、
elasticsearch
、
hadoop-yarn
我想从hadoop
读取
数据,在火花上进行处理,
并在
hadoop和弹性搜索上提取结果。我几乎没有工作节点来做这件事。 星星之火独立集群是否足够?还是我需要使hadoop集群使用纱线或mesos?如果独立集群模式足够,是否应该在所有节点上设置jar
文件
,而不是纱线、mesos模式?
浏览 1
提问于2017-02-21
得票数 2
回答已采纳
1
回答
是分布式
文件
存储(
HDFS
/Cassandra/S3等)是否强制
spark
在群集模式下运行?若有,原因为何?
apache-spark
、
hadoop
、
hdfs
是分布式
文件
存储(
HDFS
/Cassandra/S3等)是否强制
spark
在群集模式下运行?若有,原因为何?
Spark
是用于计算海量数据的分布式数据处理引擎。假设我在mysql
中
存储了大量数据,我想对这些数据进行处理。
Spark
从
mysql
读取
数据,
并在
集群节点本身上执行内存(或磁盘)计算。我仍然不能理解为什么在集群模式下运行
spark
需要分布式
文件
存储?
浏览 3
提问于2021-03-25
得票数 0
1
回答
如何将火花输出链接到Logstash输入
python
、
apache-spark
、
hdfs
、
logstash
、
spark-streaming
我有一个
Spark
流作业,输出一些日志,这些日志目前存储在
HDFS
中
,我想用logstash处理它们。不幸的是,虽然
hdfs
中有一个用于日志存储的插件,但实际上用它从
读取
是不可能的。我已经搜索了一个链接这两个部分的解决方案,但是在python的
中
,存储某些内容的唯一方法是将其作为文本
文件
写入
hdfs
,所以我必须
从
hdfs
中
读取
!我无法在
本地
保存它
浏览 2
提问于2016-07-25
得票数 1
1
回答
微笑-模型持久性-如何将模型
写入
HDFS
?
scala
、
hdfs
、
smile
我试图在我的Scala项目中使用,该项目使用了
Spark
和
HDFS
。为了我的模型的可重用性,我需要将它们
写入
HDFS
。mkdirs(); // This is a no-op if it exists}但这会在
本地
创建路径"
HDFS
:/my/
hdfs
/ path“,
并在
其中
浏览 2
提问于2020-11-11
得票数 2
回答已采纳
1
回答
执行scala脚本时不存在输入
文件
或路径
scala
我刚开始学习
Spark
/Scala,这是我第一次练习时遇到的一个令人困惑的问题: 非常感谢。
浏览 3
提问于2016-07-17
得票数 0
1
回答
如何使用闪烁
读取
文件
并使用Scala
写入
一个简单的
文件
?
scala
、
apache-spark
、
spark-streaming
、
parquet
我试图使用scala SparkStreaming程序
读取
一个
文件
。该
文件
存储在
本地
计算机上的一个目录
中
,并试图将其
写入
本地
计算机本身上的一个新
文件
。但是,每当我写我的流,并将它作为地板存储,我最终得到空白
文件
夹。这是我的密码: val
spark
= SparkSession
浏览 1
提问于2016-12-13
得票数 0
回答已采纳
1
回答
你能从火花作业直接读写硬盘吗?
apache-spark
、
hdfs
是否需要将火花作业的输出
写入
hdfs
并从中下载。或者可以直接
写入
本地
文件
系统。
浏览 3
提问于2017-10-17
得票数 1
回答已采纳
2
回答
星星之火:无法
从
HDFS
加载拼板
文件
,直到将它们“放入”
hdfs
中
。
scala
、
apache-spark
、
hdfs
、
parquet
、
webhdfs
如果我使用scp将
文件
复制到安装了
HDFS
客户端的目标计算机上,然后"
hdfs
将该
文件
放入“
HDFS
中
,那么
spark
可以正确地
读取
该
文件
。如果我使用curl对webhdf服务直接
从
客户端应用程序将该
文件
上传到
HDFS
,则在尝试
读取
parquet
文件
时
从
Spark
获得以下错误: df = "
浏览 0
提问于2018-12-04
得票数 0
1
回答
Pyspark在纱线集群模式下将
文件
写入
本地
apache-spark
、
hadoop
、
pyspark
、
hadoop-yarn
我的目标目录是
本地
目录。我用来提交
spark
-submit命令的用户是超级用户,并且拥有
从
hdfs
读取
文件
并将
文件
写入
本地
的所有权限。有人能帮帮忙吗?
浏览 12
提问于2019-07-16
得票数 2
0
回答
如何
从
spark
中
的驱动程序读/写
HDFS
scala
、
apache-spark
、
pyspark
我想知道是否可以
从
Spark
应用程序
中
的驱动程序访问
HDFS
。也就是说,如何在驱动程序
中
从
HDFS
读取
文件
/向
HDFS
写入
文件
。一种可能的解决方案是将
文件
作为RDD (sc.textFile)
读取
,然后将其收集到驱动程序
中
。然而,这不是我要找的。
浏览 3
提问于2016-07-01
得票数 1
回答已采纳
2
回答
只写_SUCCESS,不
写入
任何
文件
python
、
scala
、
apache-spark
、
spark-dataframe
、
parquet
id, n from myTable") 这将创建dir myTable.parquet,除了一个空的_SUCCESS
文件
之外没有其他内容
浏览 2
提问于2016-06-06
得票数 8
3
回答
HDFS
和
Spark
:编写
文件
并从另一个程序重用它的最佳方式
apache-spark
、
hadoop
、
hdfs
我在
HDFS
中保存了一些来自
Spark
应用程序的结果,
文件
名为part-r-0000X (X= 0,1等)。而且,因为我想将整个内容连接到一个
文件
中
,所以我使用以下命令:前面的命令在一个bash脚本中使用,该脚本将输出目录(保存part-r-...
文件
的位置)设为空,
并在
一个循环中执行上面的getmerge命令。问题是,我需要在另一个
Spark
程序中使用
浏览 12
提问于2018-07-21
得票数 1
回答已采纳
1
回答
查询
Spark
上的Hive以获得最高性能的正确方法是什么?
apache-spark
、
hive
、
pyspark
、
hadoop-yarn
、
parquet
我在Hive中有一个相当大的表(约130M条记录,180列),我正尝试使用
Spark
将其打包为拼图
文件
。我使用默认的EMR集群配置,6* r3.xlarge实例来提交我用Python编写的
spark
应用程序。然后我在YARN上以集群模式运行它,通常会给驱动程序分配少量内存(几gb),剩下的内存给执行器。data.repartition(20).write.mode('overwrite').parquet("s3://path/to/myfile.parquet"
浏览 0
提问于2017-03-21
得票数 2
1
回答
用火花读写
hdfs
中
的图像
scala
、
apache-spark
、
apache-spark-sql
、
hdfs
嗨,我正在尝试
从
本地
文件
系统
读取
一个图像
文件
,并通过
spark
和scala将其存储在
HDFS
文件
系统
中
。op.printSchema() //root |-- _1: string(nullable = true) |-- _2
浏览 1
提问于2018-03-19
得票数 0
1
回答
将
文件
指向hadoop集群
scala
、
apache-spark
、
bigdata
我在服务器上存储了一个
文件
。我希望在运行
spark
时将
文件
指向Hadoop集群。我所拥有的是,我可以将星火上下文指向hadoop集群,但是由于它指向集群,所以不能在
spark
中
访问数据。我将数据存储在
本地
,所以为了访问数据,我必须在
本地
指向它。但是,这会导致大量内存错误。我希望做的是在集群上指出星火,但同时访问
本地
存储的数据。请给我一些方法,我可以做这件事。
浏览 1
提问于2015-11-25
得票数 0
回答已采纳
1
回答
默认情况下,apache星火saveAsObjectFile
写入
hdfs
。
hdfs
、
apache-spark
、
hadoop-yarn
当我在
本地
运行
spark
(非
hdfs
)时,RDD saveAsObjectFile将
文件
写入
本地
文件
系统(ex : path /data/tem.txt) 在纱线集群上运行
spark
时,是否有一种方法可以明确地提到<em
浏览 2
提问于2014-11-26
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hadoop及Spark 分布式HA运行环境搭建
关于Hadoop,你该知道的
技术分享:大数据知识体系
大数据能否成为主流?而人工智能是否可以成为科技界的先驱呢?
深入了解HBase架构
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券