将Hadoop中的大数据导入Spark的有效方法_有没有更有效的方法将KDB数据导入到DolphinDB中？_有没有更有效的方法将pandas数据帧转换为Spark数据帧？ - 腾讯云开发者社区

、、

由于我在大数据领域才刚刚起步，我正在寻求关于如何将一些数据放入Spark以进行分析的最有效方法的建议。 SQL查询相当大，有多个子查询，每个子查询都有自己的"when“、"group by”等。如果我运行一个spark sql查询并使用pyspark将其保存到一个dataframe中，或者如果我将每个子查询提取到不同的

浏览 20提问于2021-02-07得票数 0

1回答

使用Spark连接到Teradata

、

我正试图连接到使用Spark从Teradata提取数据。我在主父目录上创建了一个"lib“目录，并放置了外部Teradata并运行了sbt包。此外，我还在我的星火壳命令中提供了“- jar”选项来提供jar。然而，当我运行星际争霸时，它似乎找不到这个类。Exception in thread "main" java.lang.ClassNotFoundException: com.teradata.hadoop.tool.TeradataImportTool

浏览 3提问于2017-06-17得票数 1

2回答

通过远程火花作业出错: java.lang.IllegalAccessError:类org.apache.hadoop.hdfs.web.HftpFileSystem

、、、、

在我的星火应用程序中，我试图使用readStream函数中内置的Spark的结构化流，从Azure blob存储的一个拼板文件文件夹中读取输入流。我无法从blob存储中读取任何数据。我在网上发现的一些小信息表明，这是由Spark和Hadoop之间的版本冲突造成的。该应用程序是使用为Hadoop 2.4预先构建<

浏览 9提问于2020-07-13得票数 3

回答已采纳

1回答

将HBase中的数据作为RDD直接查询到Spark中，还是通过Phoenix作为数据帧进行查询？

、、

我正在尝试查询存储在HBase中的数据，以便在AWS EMR中使用Spark ML。我应该将数据作为RDD提取(如下所示)，还是应该使用Phoenix将数据作为Dataframe进行查询？我已经尝试过通过HBase RDD和Phoenix将数据导入到Spark中。然而，我在使用这两种方法时都遇到了问题。org.apache.hadoop<

浏览 24提问于2019-06-21得票数 0

1回答

PySpark: saveAsNewAPIHadoopDataset()可以用作HBase的批量加载吗？

、、、、

我们目前使用saveAsNewAPIHadoopDataset()通过Spark RDDs (pyspark)将数据导入到HBase表中。此函数是否通过mapreduce使用HBase批量加载功能？换句话说，直接导入到HBase的saveAsNewAPIHadoopDataset()是否等同于使用saveAsNewAPIHadoopFile()将Hfiles写入HDFS，然后调用org.apache.hadoop.hbase.map

浏览 5提问于2015-08-24得票数 3

1回答

在2018年学习Hadoop有什么意义吗？

、

我是一名数据分析员/科学家，主要从事Python开源堆栈的工作，比如Pandas、scikit-learn、matplotlib、and等等。我想扩展我的工具箱并学习一个分布式计算框架。在2013-2014年左右，Hadoop制造了很多麻烦。根据我在这个问题上的有限知识，Apache在各个方面都改进了Hadoop的多种功能。因此，除了您需要维护遗留Hadoop应用程序的明显情况之外，到今天为止，有什么理由更喜欢Had

浏览 0提问于2018-12-23得票数 4

1回答

是否有一个可以推送大量数据的框架？

我们的MySQL和Hadoop平台部署在不同的网络中，Hadoop不能访问MySQL，但是MySQL可以连接到Hadoop。那么，是否有一个工具可以像Sqoop获取数据那样将大量数据从RDS推送到HDFS？或者有没有其他方法可以解决这个问题？任何帮助都是非常感谢的。顺便说一句，Hadoop集群在我们的网络中使用了一个Kafka主题，通过在两边部署水槽并连接在一起

浏览 1提问于2019-02-20得票数 0

1回答

将jar上载到Apache交互式会话

、、、

使用亚马逊emr-5.30.1配Livy 0.7和Spark2.4.5curl -X POST \ -d '{"conf": {"kind" : "spark","jars": "s3://cjspro-emr-da

浏览 2提问于2020-07-16得票数 1

1回答

ElasticSeach从Apache Hadoop读取数据

、

我们正在尝试将Elasticsearch应用到我们的大数据环境中。目前我们运行的是Apache Hadoop 2.7，包括Hive和Spark。在Hadoop中以Parquest格式存储数据。当我们在我们的环境中实施ELK时，我们只能将数据存储到Hadoop HDFS中吗？或者，我们必须从Hadoop中提取<e

浏览 0提问于2020-06-14得票数 1

1回答

如何在web项目中使用spark

、、、

我下载了spark-1.1.0-bin-hadoop2.4并解压缩。-1.1.0-hadoop2.4.0.jar validat

浏览 1提问于2014-12-04得票数 2

回答已采纳

2回答

火花执行器抛出错误"java.lang.ClassNotFoundException: oracle.jdbc.OracleDriver“

、

我试图使用spark从我的oracle数据库导入一个表，这里我使用Scala导入该表。我的jdbc7.jar驱动程序是ojdbc7.jar，它在配置文件中添加了参数spark.driver.extraClassPath和spark.executor.extraClassPath spark.driver.extraClassPathspark.executor.extraClassPath :

浏览 1提问于2017-12-01得票数 0

回答已采纳

1回答

Spark的int96时间类型

、、

当您在spark中创建一个timestamp列并保存到parquet时，您将获得一个12字节的整型列类型(int96)；我收集的数据被分成6个字节，分别表示儒略日和一天内的纳秒。我的问题是，Spark如何知道加载这样一个列作为时间戳，而不是一个大整数？

浏览 0提问于2017-03-06得票数 6

回答已采纳

2回答

向S3写入大文件的最佳方法是什么？

、、、、

我正在使用齐柏林飞艇和星火，我想从S3获取一个2TB文件，并在spark中运行它的转换，然后将它发送到S3，这样我就可以在木星笔记本中处理这个文件了。这些转换非常简单。我想是关于2TB的，但我不知道如何证实。它大约有10米行和5列，所以它很大。我如何想出正确的方法来写一个大的拼花文件呢？

浏览 1提问于2020-05-15得票数 2

回答已采纳

1回答

从SBT中的git包含的非SBT依赖项访问类。

、

我需要在我的SBT构建中包含一个来自git的依赖项。exclude("org.apache.hadoop", "hadoop-yarn-common-2.2.0").._ 在我发现的其他示例中，也就是我所遵循的模式，我相信依赖项也是SBT项目。elasticsearch-hadoop库是一个用gradle构建的java项目，其中嵌入了scala项目，即Spark部分，很明显，整

浏览 6提问于2016-04-07得票数 1

回答已采纳

1回答

Pyspark Blob存储-未找到类org.apache.hadoop.fs.azure.NativeAzureFileSystem

、、、、

我试图从木星笔记本中读取Azure Blob存储上的CSV文件，但是我面临以下错误： from pyspark.sql i

浏览 9提问于2022-02-06得票数 4

2回答

将Spark* DataFrame存储为.csv时重命名文件*

、、

我目前正在将spark DataFrame作为.csv文件存储在Azure上的blob存储中。我正在使用下面的代码。smtRef2_DF.dropDuplicates().coalesce(1).write .format("com.databricks.spark.csv") .save(csvBlobStorageMo

浏览 0提问于2018-08-29得票数 0

1回答

同步仪表板平台:如何快速制作仪表板？

、、、、

我设置了同步仪表板平台来处理一些导入的测试数据(同步大数据)。然后，我在仪表板平台上使用这个Hive2作为数据资源。然后，我试图获取数据，它的工作非常缓慢。有人

浏览 3提问于2017-06-29得票数 0

1回答

sbt程序集出现错误

、、

C:\scala\spark-1.6.1-bin-hadoop2.6\spark-1.6.1-bin-hadoop2.6>sbt装配信息将当前项目设置为激发-1-6-1-bin-hadoop2-6(构建文件:/c:/scal /spark-1.6.1-bin-hadoop2.

浏览 3提问于2016-05-07得票数 0

2回答

Apache Spark中的混洗是什么时候发生的？

、

我正在优化Spark中的参数，我想确切地知道Spark是如何处理数据的。有人能解释一下Spark是如何执行缩减的吗？例如，在RDD<em

浏览 2提问于2015-07-13得票数 17

回答已采纳

2回答

Apache是在同一时间读取和处理文件，还是首先在内存中读取整个文件，然后开始转换？

、

我很好奇Spark是否首先将整个文件读入内存，然后才开始处理它，这意味着应用转换和操作，或者它读取文件的第一个块--对其应用转换，读取第二个块等等。谢谢

浏览 3提问于2016-12-21得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云