卸载与sqlContext读取之间的性能_逐行读取文件与读取整个文件时的性能_函数调用与内联之间的GLSL性能差异 - 腾讯云开发者社区

amazon-redshift

请帮助我在读取redshift数据时获得优化的性能。选项1:我将数据从表卸载到S3文件夹，然后将其作为dataframe读取选项2:我使用sqlContext read。我的数据量目前较少，但预计未来几个月会增长，所以当我尝试这两种选择时，所需时间几乎相同。delimiter', config['reader_delimiter'])\ .csv(s3_directory + config['reader_pat

浏览 14提问于2019-06-25得票数 1

回答已采纳

1回答

Apache -将JavaRDD转换为DataFrame，反之亦然，性能会下降吗？

java、apache-spark、apache-spark-sql

我通过读取文本文件并将每一行映射到Model属性来创建JavaRDD<Model>。基本上，我们试图使用DataFrame API来提高性能和易于编写在将DataFrame转换为JavaRDD时，是否存在性能下降或是否会再次创建模型对象。我这么做的

浏览 0提问于2016-01-12得票数 3

回答已采纳

1回答

使用pyspark查询MongoDB集合

mongodb、apache-spark、pyspark-sql

我正在构建一个应用程序，它使用MongoDB作为跨DB集合的database.One，有大量的数据，即8GB数据。我对存储在集合中的数据执行聚合操作，并相应地生成统计信息。= SQLContext(sc)df.printSchema()resu

浏览 5提问于2016-07-27得票数 2

1回答

如何在Spark中加入大数据格式？(最佳做法、稳定性、绩效)

performance、apache-spark、join、apache-spark-sql

更具体的问题是：我<em

浏览 2提问于2016-06-23得票数 12

回答已采纳

3回答

如何在Spark中访问广播的DataFrame

scala、apache-spark

我已经创建了两个数据帧，这是从蜂窝表(PC_ITM和ITEM_SELL)和大的，我经常使用的SQL查询注册为table.But，因为它们是大的，这需要很多时间来获得查询result.So我已保存为拼图文件，然后读取它们和注册为临时table.But我仍然没有得到良好的性能，所以我广播了这些数据帧，然后注册为表，如下所示。PC_ITM_DF=sqlContext.parquetFile("path") val PC_ITM_BC=sc.broadcas

浏览 0提问于2016-01-22得票数 11

1回答

在spark/scala中加载csv文件的有效方法

scala、csv、apache-spark、databricks

我正试图从spark加载scala中的csv文件。我看到我们可以使用以下两种不同的语法： sqlContext.read.options(option).csv(path) 这两者之间有什么区别，哪一个能提供更好的性能？

浏览 2提问于2017-06-13得票数 1

回答已采纳

2回答

如何高效地将MySQL表读入Apache Spark/PySpark？

mysql、hadoop、apache-spark、apache-spark-sql

现在，我从PySpark上的HDFS中将每个表读取到不同的RDDs中进行分析。from pyspark.sql import SQLContextdf = sqlContext.read.format('com.databricks.spark.csv这样做有没有性能上的提升？使用Spark处理大型RDBMS表时要遵循的标准过程是什么？

浏览 1提问于2015-12-07得票数 2

1回答

检测到AppDomain在sql程序集中是否已失败？

.net、sql-server、sql-server-2008、sqlclr、clrstoredprocedure

AppDomain计划卸载，但当前有线程在其中执行。 }因此，在等待下一个事

浏览 2提问于2014-03-20得票数 1

回答已采纳

1回答

Spark dataframe CSV vs Parquet

pyspark、spark-dataframe、pyspark-sql

我是Spark的初学者，正在尝试理解spark数据帧的机制。当从csv加载数据时，我正在比较spark sql dataframe上sql查询的性能。我的理解是，一旦数据被加载到spark数据帧中，那么数据来自哪里(csv或parquet)就不再重要了。然而，我看到了两者之间的显着性能差异。我正在使用以下命令加载数据，并针对它编写查询。dataframe_csv = sqlcontext.read.format("csv&q

浏览 2提问于2018-02-11得票数 1

2回答

我必须统一所有的禁用模块吗？

7、performance

我想知道在性能方面，禁用模块和卸载模块之间是否有任何区别。有10个禁用模块会影响我的网站性能吗？如果我卸载它们，性能会更好吗？

浏览 0提问于2011-08-18得票数 3

回答已采纳

1回答

单个记录查找的火花性能

hadoop、apache-spark、pyspark、spark-dataframe、pyspark-sql

我正在进行性能测试，比较Spark和Tez上的Hive之间对现有内部Hive表的查询。在整个测试过程中，Spark显示的查询执行时间与Tez上的Hive相同或更快。这些结果与许多例子是一致的。在互联网上研究了这个话题之后，我找不到一个令人满意的答案，我想给SO社区举个例子，看看这是一个与我们的环境或数据相关的一次性案例，还是一个更大的与火花相关的

浏览 12提问于2016-10-18得票数 2

回答已采纳

1回答

spark_session和sqlContext在加载本地文件时的区别

apache-spark、pyspark

我尝试使用spark_session和sqlContext将本地文件加载为dataframe。df = spark_session.read...load(localpath) df = sqlContext.read...load(localpath) 效果很好。但我不

浏览 0提问于2018-11-28得票数 0

回答已采纳

0回答

spark Dataframe中的reducebykey和aggregatebykey

apache-spark、apache-spark-sql、apache-spark-2.0

我正在使用spark 2.0从拼图文件中读取数据。val Df = sqlContext.read.parquet("c:/data/parquet1")为了获得总余额值，这是在数据帧上使用action first()获取它的最佳方法吗在spark 2.0中，是否可以使用groupby key，它是否具有

浏览 5提问于2017-01-03得票数 2

回答已采纳

3回答

：选择不同的行

java、sql、dataframe、apache-spark、apache-spark-sql

我尝试了两种方法来找出不同的行与地板，但它似乎不工作。Attemp 1: Dataset<Row> df = sqlContext.read().parquet("location.parquet").distinct();Cannot havebut the type of column canvasHashes is map<string,string>;;Dataset<Row> df = sqlContext

浏览 0提问于2019-03-05得票数 4

回答已采纳

1回答

文件中格式错误的行的火花镶嵌转换问题

scala、apache-spark

我有一个"\u0001“分隔的文件读取与spark拼花转换，我没有任何关于模式的问题，但是，数据之间有引号(”)没有结束引号。我尝试了不同的解决方案，但没有找到任何解决方案。val df = sparkSession.sqlContext.read .option("delimiter".option("ignoreTrai

浏览 0提问于2017-05-25得票数 1

4回答

从星火连接到mysql

apache-spark、apache-spark-sql

我正试着按照这里提到的指示..。这项工作如预期的那样

浏览 5提问于2016-09-11得票数 0

1回答

SparkSession初始化错误-无法使用spark.read

python、apache-spark、pyspark、apache-spark-sql、apache-spark-2.0

我试图创建一个独立的PySpark程序，该程序读取一个csv并将其存储在一个单元表中。我在配置Spark会话、会议和上下文对象时遇到了问题。这是我的代码：from pyspark.sql import SQLContext, SparkSession= SQLContext(sc) dfRaw = spark.read.c

浏览 0提问于2017-10-24得票数 9

回答已采纳

1回答

Spark读表性能优化

performance、apache-spark

我正在创建一个spark作业，我想知道通过spark.sqlContext().read("table")与spark.sql("select * from table")读表是否有任何性能优势，或者spark的逻辑计划是否无论如何都会得到相同的结果？

浏览 12提问于2019-02-20得票数 0

2回答

Greenplum、Pivotal HD + Spark或针对TB级结构化数据的HAWQ？

scala、hadoop、apache-spark、greenplum、hawq

我在Greenplum DB中有数DB的结构化数据。我需要在我的数据上运行本质上是MapReduce作业的东西。我考虑了Pivotal HD + Spark，因为我正在使用Scala，而Spark基准测试是一个令人惊叹的因素。但我认为这背后的数据存储区HDFS的效率将低于Greenplum。(请注意“我相信”。因此，为了与Greenplum存储层保持一致，我研究了Pivotal的HAWQ，它基本上是Greenplum上的Hadoop和

浏览 2提问于2015-09-12得票数 3

1回答

Apache spark未提供正确的输出

apache-spark、apache-spark-sql

我正在使用spark-shell，并做了一些实验以获得快速的结果，我想从spark worker节点获得结果。val sqlContext= new org.apache.spark

浏览 1提问于2017-08-10得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云