大数据处理软件spark - 腾讯云开发者社区

、

我正在尝试处理一个大数据文件，但是LibreOffice总是滞后和干扰。当我在Windows上使用Excel时，这些文件没有问题。有人对Ubuntu22.04上的Excel文件处理软件有什么建议吗？

浏览 0提问于2023-02-08得票数 0

1回答

如何使用mapPartitions函数将关系数据集转换为数据集

、

我正在尝试将java spark RDD转换为dataset。这将有助于提高spark的性能。

浏览 0提问于2019-10-06得票数 0

1回答

如何估算Shark/Spark SQL所需的内存？

当我使用处理大数据时，Spark会向Out Of Memory发出警报。不使用隧道GC。我猜原始数据太大了，无法处理。我的问题是，我如何估计分配给Spark的内存，或者当给Spark一个特定的内存时，Spark可以处理的最大数据？

浏览 2提问于2014-09-10得票数 1

2回答

如何在Apache Spark中进行多标签分类

、

我想在大数据集上进行多标签文本分类，似乎Apache Mahout或Spark MLLib等大数据机器学习工具目前还不支持这一点。我想知道以前有没有人做过大数据集的多标签分类？在不久的将来，是否有计划在Mahout或Spark中集成多标签分类？

浏览 13提问于2015-06-26得票数 5

1回答

如何解决火花提交错误:错误:未能加载类？

、、、

我将scala文件写成：import org.apache.spark.SparkContextval sc=new SparkContext(conf) val data=sc.textFile("/Users/laiyinan/OneDrive/文档/书籍/大数据/达内BIG/大数据

浏览 6提问于2021-07-20得票数 0

1回答

使用Apache Spark的代理键

、、

我们有基于事件的框架，我们使用Kafka和Spark streaming，最后将数据持久化到数据库中。我来自数据仓库世界。我想使用为我们正在使用的一些维度数据生成的代理键。在spark world中，它通常是如何实现的？surrogate key是现代大数据架构中的相关主题吗？我在哪里可以获得关于从数据仓库到大数据架构的转变以及我们如何在大数据架构中建立数据模型的良好信息？

浏览 4提问于2018-11-13得票数 1

1回答

在星火中VARCHAR类型的最大长度限制是什么？

、、、

我试图找出的长度限制，在星火中的瓦古尔类型。检查了数据类型文档页，但此处没有提到限制。如上文所述，

浏览 8提问于2022-03-24得票数 1

1回答

读取Spark2.3.0中的Zstandard压缩文件

、、、

据推测，Apache支持Facebook的Zstandard压缩算法，从Spark2.3.0 ()开始，但我无法真正读取Zstandard压缩文件：scala> val events = spark.read.option("compression", "zstd").json("data.zstimport org.apache.s

浏览 7提问于2018-06-15得票数 8

回答已采纳

1回答

HadoopSpark2.4的最佳版本

、

我是大数据(Spark)的初学者，现在我已经安装了spark2.4，所以我想知道应该选择哪个最好的版本。

浏览 0提问于2018-12-18得票数 0

2回答

使用python或hadoop进行数据分析？

、、

哪种技术可以有效地分析数据hadoop或python？速度介于上述两者之间的是哪种技术？

浏览 61提问于2018-07-30得票数 -1

回答已采纳

1回答

读取Avro文件，一次一行。Python

、

上下文:我想把Avro文件读入Spark作为RDD。我想知道，如果我可以访问Avro数据模式，是否可以一次解析一行Avro文件。我正在使用pyspark来编写我的spark作业。

浏览 1提问于2015-12-12得票数 1

2回答

hCard:它只能用于语义上标记企业的联系方式吗？

、、、

是否可以使用hCard标记企业的联系方式？在hCard中显然需要一个名称： (例如John Doe)。我在试着标明一家公司的联系方式。hCard对我来说没用吗？

浏览 1提问于2011-11-28得票数 0

回答已采纳

1回答

大数据的最佳实践？

、、、、

根据您的经验，我有以下大数据系统：我想知道什么是产品的最佳组合，可以产生在线可视化和大数据的离线可视化

浏览 2提问于2015-10-08得票数 0

2回答

PySpark -有没有一种方法可以迭代多个列并用列的最大数字(+1)填充NAs？

、、、、

我正在尝试用相应列的最大数字+ 1填充空值。这个想法是，在为每个数字分类列创建“缺失”类别时，在尝试模拟SAS中的一个热编码过程时，返回并在一次热编码后将这些值标记为“无”。因此，公列的最大数目+1= 3。然后是4，其他列的最大数目是6。null_list = ['male', 'rate', 'level'] descr_dict = {'male': '2', 'rate': '3', '

浏览 0提问于2019-08-22得票数 1

3回答

Talend和Apache Spark？

、、、、

我对Talend和Apache spark在大数据生态系统中的位置感到困惑，因为Apache Spark和Talend都可以用于ETL。有人能举个例子来解释一下吗？

浏览 0提问于2016-11-02得票数 2

1回答

我们如何在开源Spark和Hortonworks的Hadoop沙箱中使用集群？

、、

我下载了Apache Spark和Hortonworks Hadoop Sandbox。据我所知，我们通过将任务分布到多台机器或集群来分析大数据。但是在Spark或Hadoop的情况下，当我简单地下载这些环境时，我使用的是谁的集群？他们说这些环境提供了单节点集群，也就是说，我假设我的计算机本身。但是，如果我被限制在我的计算机本身，我如何分析大数据？简而言之，在我自己的笔记本电脑上使用Spark的逻辑是什么？

浏览 0提问于2017-03-19得票数 0

1回答

我想好好学精通一门技术，大家用的走过的路，帮我指点指点呗让我少走了弯路和坑的苦？

自学，自己摸索白白浪费大把时光二是，降低他人的学习成本。三是，别人对自己学习结果的审核。

浏览 299提问于2020-09-25

4回答

Spark SQL会完全取代Apache Impala或Apache Hive吗？

、、、、

我需要在我们的服务器上部署大数据集群。但我只知道关于Apache Spark的知识。现在我需要知道Spark SQL是否能完全取代Apache Impala或Apache Hive。我需要你的帮助。

浏览 3提问于2016-10-25得票数 7

1回答

pandas数据帧的PySpark rdd

、

所以我做了一个spark调用，它给了我一个所有输入文件的列表，然后我调用了map，它为我提供了一个sc.wholeTextFiles，其中每个元素都是一个熊猫数据帧。

浏览 0提问于2020-06-29得票数 0

1回答

裸金属到大数据:所有这些都能在同一个集群上一起运行吗？

、、、

我是一个非常新的系统管理员(16级)，我被要求创建一个包含3个裸金属PowerEdge服务器的大数据集群。*Hadoop2 *纱线*Java 7和8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R ( Spark和Hadoop的库) *Zeppelin *Cassandra我想知道这些是否都能“一起玩”，因为我对大数据知之甚少，搜索结果是很多"x对y“页面，而不是"x和y”。

浏览 0提问于2018-03-16得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

处理excel文件的软件

如何使用mapPartitions函数将关系数据集转换为数据集

如何估算Shark/Spark SQL所需的内存？

如何在Apache Spark中进行多标签分类

如何解决火花提交错误:错误:未能加载类？

使用Apache Spark的代理键

在星火中VARCHAR类型的最大长度限制是什么？

读取Spark2.3.0中的Zstandard压缩文件

HadoopSpark2.4的最佳版本

使用python或hadoop进行数据分析？

读取Avro文件，一次一行。Python

hCard:它只能用于语义上标记企业的联系方式吗？

大数据的最佳实践？

PySpark -有没有一种方法可以迭代多个列并用列的最大数字(+1)填充NAs？

Talend和Apache Spark？

我们如何在开源Spark和Hortonworks的Hadoop沙箱中使用集群？

我想好好学精通一门技术，大家用的走过的路，帮我指点指点呗让我少走了弯路和坑的苦？

Spark SQL会完全取代Apache Impala或Apache Hive吗？

pandas数据帧的PySpark rdd

裸金属到大数据:所有这些都能在同一个集群上一起运行吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐