腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
Hadoop
中
的
大
数据
导入
Spark
的
有效
方法
、
、
由于我在大
数据
领域才刚刚起步,我正在寻求关于如何
将
一些
数据
放入
Spark
以进行分析
的
最
有效
方法
的
建议。 SQL查询相当
大
,有多个子查询,每个子查询都有自己
的
"when“、"group by”等。如果我运行一个
spark
sql查询并使用pyspark将其保存到一个dataframe
中
,或者如果我
将
每个子查询提取到不同
的
浏览 20
提问于2021-02-07
得票数 0
1
回答
使用
Spark
连接到Teradata
、
我正试图连接到使用
Spark
从Teradata提取
数据
。我在主父目录上创建了一个"lib“目录,并放置了外部Teradata并运行了sbt包。此外,我还在我
的
星火壳命令中提供了“- jar”选项来提供jar。然而,当我运行星际争霸时,它似乎找不到这个类。Exception in thread "main" java.lang.ClassNotFoundException: com.teradata.
hadoop
.tool.TeradataImportTool
浏览 3
提问于2017-06-17
得票数 1
2
回答
通过远程火花作业出错: java.lang.IllegalAccessError:类org.apache.
hadoop
.hdfs.web.HftpFileSystem
、
、
、
、
在我
的
星火应用程序
中
,我试图使用readStream函数
中
内置
的
Spark
的
结构化流,从Azure blob存储
的
一个拼板文件文件夹
中
读取输入流。我无法从blob存储
中
读取任何
数据
。我在网上发现
的
一些小信息表明,这是由
Spark
和
Hadoop
之间
的
版本冲突造成
的
。该应用程序是使用为
Hadoop
2.4预先构建<
浏览 9
提问于2020-07-13
得票数 3
回答已采纳
1
回答
将
HBase
中
的
数据
作为RDD直接查询到
Spark
中
,还是通过Phoenix作为
数据
帧进行查询?
、
、
我正在尝试查询存储在HBase
中
的
数据
,以便在AWS EMR中使用
Spark
ML。我应该
将
数据
作为RDD提取(如下所示),还是应该使用Phoenix
将
数据
作为Dataframe进行查询?我已经尝试过通过HBase RDD和Phoenix
将
数据
导入
到
Spark
中
。然而,我在使用这两种
方法
时都遇到了问题。org.apache.
hadoop<
浏览 24
提问于2019-06-21
得票数 0
1
回答
PySpark: saveAsNewAPIHadoopDataset()可以用作HBase
的
批量加载吗?
、
、
、
、
我们目前使用saveAsNewAPIHadoopDataset()通过
Spark
RDDs (pyspark)
将
数据
导入
到HBase表
中
。 此函数是否通过mapreduce使用HBase批量加载功能?换句话说,直接
导入
到HBase
的
saveAsNewAPIHadoopDataset()是否等同于使用saveAsNewAPIHadoopFile()
将
Hfiles写入HDFS,然后调用org.apache.
hadoop
.hbase.map
浏览 5
提问于2015-08-24
得票数 3
1
回答
在2018年学习
Hadoop
有什么意义吗?
、
我是一名
数据
分析员/科学家,主要从事Python开源堆栈
的
工作,比如Pandas、scikit-learn、matplotlib、and等等。我想扩展我
的
工具箱并学习一个分布式计算框架。在2013-2014年左右,
Hadoop
制造了很多麻烦。根据我在这个问题上
的
有限知识,Apache在各个方面都改进了
Hadoop
的
多种功能。因此,除了您需要维护遗留
Hadoop
应用程序
的
明显情况之外,到今天为止,有什么理由更喜欢
Had
浏览 0
提问于2018-12-23
得票数 4
1
回答
是否有一个可以推送大量
数据
的
框架?
我们
的
MySQL和
Hadoop
平台部署在不同
的
网络
中
,
Hadoop
不能访问MySQL,但是MySQL可以连接到
Hadoop
。那么,是否有一个工具可以像Sqoop获取
数据
那样
将
大量
数据
从RDS推送到HDFS?或者有没有其他
方法
可以解决这个问题? 任何帮助都是非常感谢
的
。顺便说一句,
Hadoop
集群在我们
的
网络中使用了一个Kafka主题,通过在两边部署水槽并连接在一起
浏览 1
提问于2019-02-20
得票数 0
1
回答
将
jar上载到Apache交互式会话
、
、
、
使用亚马逊emr-5.30.1配Livy 0.7和
Spark
2.4.5curl -X POST \ -d '{"conf": {"kind" : "
spark
","jars": "s3://cjspro-emr-da
浏览 2
提问于2020-07-16
得票数 1
1
回答
ElasticSeach从Apache
Hadoop
读取
数据
、
我们正在尝试
将
Elasticsearch应用到我们
的
大
数据
环境
中
。目前我们运行
的
是Apache
Hadoop
2.7,包括Hive和
Spark
。在
Hadoop
中
以Parquest格式存储
数据
。当我们在我们
的
环境
中
实施ELK时,我们只能将
数据
存储到
Hadoop
HDFS
中
吗?或者,我们必须从
Hadoop
中提取<e
浏览 0
提问于2020-06-14
得票数 1
1
回答
如何在web项目中使用
spark
、
、
、
我下载了
spark
-1.1.0-bin-
hadoop
2.4并解压缩。-1.1.0-
hadoop
2.4.0.jar validat
浏览 1
提问于2014-12-04
得票数 2
回答已采纳
2
回答
火花执行器抛出错误"java.lang.ClassNotFoundException: oracle.jdbc.OracleDriver“
、
我试图使用
spark
从我
的
oracle
数据
库
导入
一个表,这里我使用Scala
导入
该表。我
的
jdbc7.jar驱动程序是ojdbc7.jar,它在配置文件
中
添加了参数
spark
.driver.extraClassPath和
spark
.executor.extraClassPath
spark
.driver.extraClassPath
spark
.executor.extraClassPath :
浏览 1
提问于2017-12-01
得票数 0
回答已采纳
1
回答
Spark
的
int96时间类型
、
、
当您在
spark
中
创建一个timestamp列并保存到parquet时,您将获得一个12字节
的
整型列类型(int96);我收集
的
数据
被分成6个字节,分别表示儒略日和一天内
的
纳秒。我
的
问题是,
Spark
如何知道加载这样一个列作为时间戳,而不是一个
大
整数?
浏览 0
提问于2017-03-06
得票数 6
回答已采纳
2
回答
向S3写入大文件
的
最佳
方法
是什么?
、
、
、
、
我正在使用齐柏林飞艇和星火,我想从S3获取一个2TB文件,并在
spark
中
运行它
的
转换,然后将它发送到S3,这样我就可以在木星笔记本
中
处理这个文件了。这些转换非常简单。我想是关于2TB
的
,但我不知道如何证实。 它大约有10米行和5列,所以它很大。我如何想出正确
的
方法
来写一个
大
的
拼花文件呢?
浏览 1
提问于2020-05-15
得票数 2
回答已采纳
1
回答
从SBT
中
的
git包含
的
非SBT依赖项访问类。
、
我需要在我
的
SBT构建中包含一个来自git
的
依赖项。exclude("org.apache.
hadoop
", "
hadoop
-yarn-common-2.2.0").._ 在我发现
的
其他示例
中
,也就是我所遵循
的
模式,我相信依赖项也是SBT项目。elasticsearch-
hadoop
库是一个用gradle构建
的
java项目,其中嵌入了scala项目,即
Spark
部分,很明显,整
浏览 6
提问于2016-04-07
得票数 1
回答已采纳
1
回答
Pyspark Blob存储-未找到类org.apache.
hadoop
.fs.azure.NativeAzureFileSystem
、
、
、
、
我试图从木星笔记本
中
读取Azure Blob存储上
的
CSV文件,但是我面临以下错误: from pyspark.sql i
浏览 9
提问于2022-02-06
得票数 4
2
回答
将
Spark
DataFrame存储为.csv时重命名文件
、
、
我目前正在
将
spark
DataFrame作为.csv文件存储在Azure上
的
blob存储
中
。我正在使用下面的代码。smtRef2_DF.dropDuplicates().coalesce(1).write .format("com.databricks.
spark
.csv") .save(csvBlobStorageMo
浏览 0
提问于2018-08-29
得票数 0
1
回答
同步仪表板平台:如何快速制作仪表板?
、
、
、
、
我设置了同步仪表板平台来处理一些
导入
的
测试
数据
(同步大
数据
)。然后,我在仪表板平台上使用这个Hive2作为
数据
资源。然后,我试图获取
数据
,它
的
工作非常缓慢。 有人
浏览 3
提问于2017-06-29
得票数 0
1
回答
sbt程序集出现错误
、
、
C:\scala\
spark
-1.6.1-bin-
hadoop
2.6\
spark
-1.6.1-bin-
hadoop
2.6>sbt装配信息
将
当前项目设置为激发-1-6-1-bin-
hadoop
2-6(构建文件:/c:/scal /
spark
-1.6.1-bin-
hadoop
2.
浏览 3
提问于2016-05-07
得票数 0
2
回答
Apache
Spark
中
的
混洗是什么时候发生
的
?
、
我正在优化
Spark
中
的
参数,我想确切地知道
Spark
是如何处理
数据
的
。有人能解释一下
Spark
是如何执行缩减
的
吗?例如,在RDD<em
浏览 2
提问于2015-07-13
得票数 17
回答已采纳
2
回答
Apache是在同一时间读取和处理文件,还是首先在内存
中
读取整个文件,然后开始转换?
、
我很好奇
Spark
是否首先将整个文件读入内存,然后才开始处理它,这意味着应用转换和操作,或者它读取文件
的
第一个块--对其应用转换,读取第二个块等等。谢谢
浏览 3
提问于2016-12-21
得票数 5
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何将kafka中的数据快速导入Hadoop?
浅谈Hadoop在大数据中的作用以及与Spark的关系
将Excel工作表数据导入Access数据库的3种方法
如何将文本文件或Excel中的数据导入数据库?
何将文本文件中的数据导入到Word并生成表格?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券