腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Scala
/
Spark
列出
目录
中
的
文件
(
包括
文件
信息
)
scala
、
apache-spark
、
hdfs
、
apache-zeppelin
我是
Scala
/
Spark
的
新手,希望你们能帮助我。我想在一个hdfs
的
目录
中
获取在某个时间戳之后创建
的
文件
,以便在Zeppelin中进行一点监控。因此,我需要一个包含
文件
名、
文件
大小和modificationDate
的
列。我发现这对我来说很有效,可以获得我需要
的
所有
信息
: val fs = FileSystem.get(new Configuratio
浏览 18
提问于2020-12-10
得票数 1
回答已采纳
1
回答
Dataframe转换产生空值。
regex
、
scala
、
apache-spark
、
parquet
除了元数据
目录
之外,我一直试图在
目录
中
列出
Parquet
文件
中
的
所有
Spark
数据。
目录
的
结构如下所示: - time=19424145 - time=19424147主要目标是避免从_
spark
_metadata
目录
读取数据。filesDf.isEm
浏览 1
提问于2020-07-01
得票数 0
回答已采纳
3
回答
使用
Spark
列出
Hadoop HDFS
目录
中
的
所有
文件
?
scala
、
apache-spark
、
hadoop
我想遍历Hadoop
目录
中
的
所有文本
文件
,并计算单词"error“
的
所有出现次数。有没有办法
使用
Apache
Spark
Scala
API创建一个hadoop fs -ls /users/ubuntu/来
列出
目录
中
的
所有
文件
?从给定
的
来看,
spark
上下文似乎只能通过以下内容单独访问<e
浏览 1
提问于2014-04-29
得票数 15
回答已采纳
1
回答
spark
-submit适用于Python程序,但pyspark不起作用
pyspark
显而易见
的
是,我最近在UBUNTU (VMWARE工作站)上安装了
SPARK
。下面是我
的
电脑规格。我
使用
spark
submit命令运行了一个示例程序,它完成得很好。但是当我尝试登录pyspark shell时,我得到了错误
信息
&quo
浏览 0
提问于2016-05-07
得票数 0
1
回答
我能否获取存储在Azure Databricks上
的
文件
的
元数据或
文件
的
状态
azure
、
azure-active-directory
、
databricks
正如我在标题中提到
的
,我很好奇是否可以获得一堆
文件
的
元数据,基本上是blob
中
的
所有
文件
,这些
文件
都加载到Azure Databricks上。我希望有一些通用
的
脚本,可以运行给出统计
文件
(主要是CSV格式)。我知道在SQL Server
中
获取表
的
各种统计数据非常容易,SQL Server也是Microsoft
的
一款产品。或者,也许可以生成某种类型
的
报告来显示<em
浏览 8
提问于2019-06-21
得票数 1
回答已采纳
1
回答
Hdfs查找小于特定大小
的
文件
scala
、
apache-spark
、
hdfs
有没有办法在Hdfs
中
列出
小于特定大小
的
文件
。
使用
命令行,甚至是
spark
脚本?
Scala
/
spark
会更好,因为与命令行相比,它可能运行得更快。我已经看过Apache FileSystem文档,但找不到太多
信息
。
浏览 20
提问于2019-10-29
得票数 1
回答已采纳
1
回答
Scala
中
的
导入状态集
eclipse
、
git
、
scala
、
import
我现在看一下星火
的
Github存储库。在类
中
,我试图了解如何组织导入语句。如果我在
Scala
中
执行一个新项目并尝试在我
的
所有者
Scala
类
中
执行导入语句,那么我可以执行下一个导入: 我已经从本地机器上
的
Github存储库下载了一个
Spark
包。例如,在存储库
中</
浏览 5
提问于2016-08-25
得票数 0
回答已采纳
1
回答
在
Scala
中
并行运行函数
scala
、
apache-spark
、
parallel-processing
我有一个
Spark
SQL函数,它在HDFS
目录
中生成临时
文件
。我想在函数运行时打印所有的
目录
和
文件
。下面是函数:
spark
.sql(s"INSERT INTO ${table} VALUES ....") 当函数/query运行时,我希望看到在HDFS
目录
下生成
的
文件
。因为这些
文件
是临时
的
,所以我想在查询运行时
列出
几次
目录
。sc.
浏览 14
提问于2020-09-03
得票数 0
回答已采纳
1
回答
使用
power Shell或windows批处理
文件
的
Spark
代码自动化
windows
、
scala
、
powershell
、
apache-spark
、
batch-file
我有一个场景,在这个场景
中
,我们将apache与sql服务器连接起来,将表
的
数据加载到
spark
中
,并从中生成aparquet
文件
。下面是我
的
代码片段:val jdbcDF = (
spark
.read.format("jdbc") .option("url", "jdbc:sqlservercom.microsoft.sqlserver.jdbc.
浏览 3
提问于2021-12-15
得票数 0
回答已采纳
1
回答
不启动主
目录
apache-spark
我在主
目录
上安装了
spark
,并在bash
文件
中
给出了路径。现在,当
使用
“火花壳”调用时,火花就不会启动。bashrcexport PATH=$
SCALA
_HOME/bin:$PATH export
SPARK
_HOME=/home/
spark
/
浏览 5
提问于2016-12-10
得票数 1
回答已采纳
2
回答
将两个存在于蜂箱
中
的
表连接在一起
java
、
scala
、
hadoop
、
apache-spark-sql
我已经在eclipse
中
编写了Java程序来连接两个表,但是我在package附近得到了一个错误,下面是错误 package joins; import org.apache.
spark
.SparkContext; importorg.apa
浏览 0
提问于2015-10-26
得票数 0
3
回答
通过
Spark
读取保存在
文件
夹
中
的
所有拼图
文件
scala
、
apache-spark
、
apache-spark-sql
我有一个包含拼图
文件
的
文件
夹。parquet")org.apache.
spark
.sql.AnalysisException: Unable to(DataSource.<em
浏览 0
提问于2017-03-27
得票数 13
回答已采纳
1
回答
如何以Dataproc作业
的
形式运行未编译
的
Scala
/shell代码?
scala
、
apache-spark
、
google-cloud-dataproc
通常情况下,如果我将
Scala
用于
Spark
作业,我将编译一个jarfile并
使用
gcloud dataproc jobs submit
spark
提交它,但有时对于非常轻量级
的
作业,我可能在笔记本中
使用
未编译
的
Scala
代码,或者
使用
spark
-shell REPL,在这里我假设SparkContext已经可用。对于其中
的
一些轻量级用例,我可以等效地
使用
PySpark并与gclo
浏览 2
提问于2020-03-08
得票数 5
回答已采纳
1
回答
删除
spark
-structured-streaming写入
的
损坏拼接
文件
时会丢失数据吗?
scala
、
apache-kafka
、
parquet
、
spark-structured-streaming
我
使用
spark
-structured-streaming作为消费者从kafka获取数据,按照指南参考https://
spark
.apache.org/docs/latest/structured-streaming-kafka-integration.html然后将数据保存到hdfs作为拼图
文件
。这是我
的
问题:程序运行良好,但一些容器很少失败(但它确实发生了),导致了一些损坏
的
拼接
文件
。它将导致错误,如不是拼图
浏览 20
提问于2019-05-25
得票数 0
1
回答
Spark
Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS
scala
、
apache-spark
、
hadoop
、
hdfs
我正在尝试
使用
火花流将数据从一个HDFS位置读取到另一个HDFS位置 下面是我在
spark
-shell上
的
代码片段 但是我看不到在HDFS输出
目录
上创建
的
文件
,您能否指出如何在HDFS上加载这些
文件
scala
> sc.stop()
scala
> import org.apache.
浏览 12
提问于2018-12-21
得票数 1
回答已采纳
6
回答
无法安装pyspark
python
、
pyspark
我正在尝试安装pyspark,如下所示:我得到了这个错误:已经安装了pypandoc
浏览 6
提问于2018-07-24
得票数 15
2
回答
丝上
的
星火是如何处理
文件
的
?
apache-spark
我正在
使用
Yarn在
Spark
中
执行一个过滤器,并接收以下错误。任何帮助都很感激,但我
的
主要问题是为什么找不到
文件
。-aa00/05/merged_shuffle_1_343_1我可以配
浏览 3
提问于2015-07-08
得票数 10
回答已采纳
1
回答
使用
spark
/
scala
将
文件
从子
目录
复制到hdfs
中
的
基
目录
scala
、
file
、
apache-spark
、
hdfs
、
subdirectory
每次作业运行时,我都会在hdfs基本
目录
下创建
文件
夹。每个
文件
夹下都有.dat
文件
。例如。基
目录
:- /user/srav/子
目录
:- /user/srav/20190101 /user/srav/201
浏览 0
提问于2019-10-30
得票数 0
1
回答
_
spark
_metadata引发问题
scala
、
apache-spark
、
spark-streaming
我在
Scala
中
使用
Spark
,我有一个
目录
,其中有多个
文件
。 在这个
目录
中
,我有由
Spark
生成
的
Parquet
文件
和由
Spark
流生成
的
其他
文件
。而星光流生成一个
目录
_
spark
_metadata。我面临
的
问题是,当我
使用
Spark
(sparksession.read.
浏览 0
提问于2018-11-26
得票数 2
2
回答
将
scala
-eclipse用于
spark
eclipse
、
scala
、
apache-spark
能帮我讲讲如何
使用
scala
-eclipse IDE for
spark
吗?我偶然发现了这个链接- 。但是我不能理解它。我在
spark
目录
中
输入了命令- mvn -Phadoop2 eclipse:clean eclipse:eclipse,在一长串下载之后,它给了我一些错误。请帮帮忙。谢谢Reactor Summary:[INFO]
Spark
Project Parent POM ..............
浏览 4
提问于2014-05-07
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Python查找目录中的重复文件
使用Python批量复制源目录下的所有Excel文件复制到目标目录中
Hadoop及Spark 分布式HA运行环境搭建
大数据之脚踏实地学11-Spark神器的安装
Spark1.6官方文档译文系列一
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券