腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1002)
视频
沙龙
2
回答
处理excel文件的软件
、
我正在尝试处理一个
大数
据文件,但是LibreOffice总是滞后和干扰。当我在Windows上使用Excel时,这些文件没有问题。 有人对Ubuntu22.04上的Excel文件
处理软件
有什么建议吗?
浏览 0
提问于2023-02-08
得票数 0
1
回答
如何使用mapPartitions函数将关系数据集转换为数据集
、
我正在尝试将java
spark
RDD转换为dataset。这将有助于提高
spark
的性能。
浏览 0
提问于2019-10-06
得票数 0
1
回答
如何估算Shark/
Spark
SQL所需的内存?
当我使用处理
大数
据时,
Spark
会向Out Of Memory发出警报。不使用隧道GC。我猜原始数据太大了,无法处理。我的问题是,我如何估计分配给
Spark
的内存,或者当给
Spark
一个特定的内存时,
Spark
可以处理的最
大数
据?
浏览 2
提问于2014-09-10
得票数 1
2
回答
如何在Apache
Spark
中进行多标签分类
、
我想在
大数
据集上进行多标签文本分类,似乎Apache Mahout或
Spark
MLLib等
大数
据机器学习工具目前还不支持这一点。我想知道以前有没有人做过
大数
据集的多标签分类?在不久的将来,是否有计划在Mahout或
Spark
中集成多标签分类?
浏览 13
提问于2015-06-26
得票数 5
1
回答
如何解决火花提交错误:错误:未能加载类?
、
、
、
我将scala文件写成:import org.apache.
spark
.SparkContextval sc=new SparkContext(conf) val data=sc.textFile("/Users/laiyinan/OneDrive/文档/书籍/
大数
据/达内BIG/
大数
据
浏览 6
提问于2021-07-20
得票数 0
1
回答
使用Apache
Spark
的代理键
、
、
我们有基于事件的框架,我们使用Kafka和
Spark
streaming,最后将数据持久化到数据库中。我来自数据仓库世界。我想使用为我们正在使用的一些维度数据生成的代理键。在
spark
world中,它通常是如何实现的?surrogate key是现代
大数
据架构中的相关主题吗?我在哪里可以获得关于从数据仓库到
大数
据架构的转变以及我们如何在
大数
据架构中建立数据模型的良好信息?
浏览 4
提问于2018-11-13
得票数 1
1
回答
在星火中VARCHAR类型的最大长度限制是什么?
、
、
、
我试图找出的长度限制,在星火中的瓦古尔类型。检查了数据类型文档页,但此处没有提到限制。如上文所述,
浏览 8
提问于2022-03-24
得票数 1
1
回答
读取
Spark
2.3.0中的Zstandard压缩文件
、
、
、
据
推测,Apache支持Facebook的Zstandard压缩算法,从
Spark
2.3.0 ()开始,但我无法真正读取Zstandard压缩文件:scala> val events =
spark
.read.option("compression", "zstd").json("data.zstimport org.apache.
s
浏览 7
提问于2018-06-15
得票数 8
回答已采纳
1
回答
HadoopSpark2.4的最佳版本
、
我是
大数
据(
Spark
)的初学者,现在我已经安装了
spark
2.4,所以我想知道应该选择哪个最好的版本。
浏览 0
提问于2018-12-18
得票数 0
2
回答
使用python或hadoop进行数据分析?
、
、
哪种技术可以有效地分析数据hadoop或python?速度介于上述两者之间的是哪种技术?
浏览 61
提问于2018-07-30
得票数 -1
回答已采纳
1
回答
读取Avro文件,一次一行。Python
、
上下文:我想把Avro文件读入
Spark
作为RDD。我想知道,如果我可以访问Avro数据模式,是否可以一次解析一行Avro文件。 我正在使用pyspark来编写我的
spark
作业。
浏览 1
提问于2015-12-12
得票数 1
2
回答
hCard:它只能用于语义上标记企业的联系方式吗?
、
、
、
是否可以使用hCard标记企业的联系方式?在hCard中显然需要一个名称: (例如John Doe)。我在试着标明一家公司的联系方式。hCard对我来说没用吗?
浏览 1
提问于2011-11-28
得票数 0
回答已采纳
1
回答
大数
据的最佳实践?
、
、
、
、
根据您的经验,我有以下
大数
据系统: 我想知道什么是产品的最佳组合,可以产生在线可视化和
大数
据的离线可视化
浏览 2
提问于2015-10-08
得票数 0
2
回答
PySpark -有没有一种方法可以迭代多个列并用列的最
大数
字(+1)填充NAs?
、
、
、
、
我正在尝试用相应列的最
大数
字+ 1填充空值。这个想法是,在为每个数字分类列创建“缺失”类别时,在尝试模拟SAS中的一个热编码过程时,返回并在一次热编码后将这些值标记为“无”。因此,公列的最
大数
目+1= 3。然后是4,其他列的最
大数
目是6。null_list = ['male', 'rate', 'level'] descr_dict = {'male': '2', 'rate': '3', '
浏览 0
提问于2019-08-22
得票数 1
3
回答
Talend和Apache
Spark
?
、
、
、
、
我对Talend和Apache
spark
在
大数
据生态系统中的位置感到困惑,因为Apache
Spark
和Talend都可以用于ETL。 有人能举个例子来解释一下吗?
浏览 0
提问于2016-11-02
得票数 2
1
回答
我们如何在开源
Spark
和Hortonworks的Hadoop沙箱中使用集群?
、
、
我下载了Apache
Spark
和Hortonworks Hadoop Sandbox。据我所知,我们通过将任务分布到多台机器或集群来分析
大数
据。但是在
Spark
或Hadoop的情况下,当我简单地下载这些环境时,我使用的是谁的集群?他们说这些环境提供了单节点集群,也就是说,我假设我的计算机本身。但是,如果我被限制在我的计算机本身,我如何分析
大数
据?简而言之,在我自己的笔记本电脑上使用
Spark
的逻辑是什么?
浏览 0
提问于2017-03-19
得票数 0
1
回答
我 想好好学精通一门技术,大家用的走过的路,帮我指点指点呗 让我少走了弯路和坑的苦 ?
自学,自己摸索 白白浪费大把时光 二是,降低他人的学习成本。 三是,别人对自己学习结果的审核。
浏览 299
提问于2020-09-25
4
回答
Spark
SQL会完全取代Apache Impala或Apache Hive吗?
、
、
、
、
我需要在我们的服务器上部署
大数
据集群。但我只知道关于Apache
Spark
的知识。现在我需要知道
Spark
SQL是否能完全取代Apache Impala或Apache Hive。 我需要你的帮助。
浏览 3
提问于2016-10-25
得票数 7
1
回答
pandas数据帧的PySpark rdd
、
所以我做了一个
spark
调用,它给了我一个所有输入文件的列表,然后我调用了map,它为我提供了一个sc.wholeTextFiles,其中每个元素都是一个熊猫数据帧。
浏览 0
提问于2020-06-29
得票数 0
1
回答
裸金属到
大数
据:所有这些都能在同一个集群上一起运行吗?
、
、
、
我是一个非常新的系统管理员(16级),我被要求创建一个包含3个裸金属PowerEdge服务器的
大数
据集群。*Hadoop2 *纱线*Java 7和8 *
Spark
*SBT *Maven *Scala *P7zip *Pig *Hive *R (
Spark
和Hadoop的库) *Zeppelin *Cassandra我想知道这些是否都能“一起玩”,因为我对
大数
据知之甚少,搜索结果是很多"x对y“页面,而不是"x和y”。
浏览 0
提问于2018-03-16
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
走进大数据 Spark-Spark streaming
大数据:Spark
大数据-Spark揭秘
大数据Spark框架:Spark生态圈入门
大数据之谜Spark基础篇,Spark RDD内幕详解
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券