filterPushdown是PySpark的设置吗？

文章/答案/技术大牛

发布

1回答

、

偶然发现Hortonwork的博客文章提倡谓词下推。我在Spark 1.4文档中找不到它(这是我正在使用的版本)。我是否需要担心将其设置为false，或者它已经是本机设置？

浏览 7提问于2017-01-13得票数 1

1回答

为什么在spark中spark.sql.orc.filterPushdown默认是false？

、、

为什么spark中的spark.sql.orc.filterPushdown默认值是false？将spark的值设置为true是否会导致一些性能开销，或者在spark.sql.orc.filterPushdown的orc读取功能中存在一些限制？

浏览 0提问于2019-03-14得票数 0

1回答

Spark /谓词下推是否在ORC文件中不正常工作？

、、、

而"spark.sql.orc.filterPushdown“等于false (默认情况下)。下面的语句花了3分钟执行。但是在将spark.sql.orc.filterPushdown设置为“真”之后，相同的代码片段大约需要30秒。奇怪的部分是物理计划是相同的。因此，我查看了SparkUI的“阶段”部分，输入大小的数量是不同的。spark.conf.set("s

浏览 0提问于2019-09-09得票数 3

2回答

火花2.3+使用parquet.enable.dictionary？

、

我正在寻找关于如何在星火中使用parquet.enable.dictionary的文档(最新的2.3.1)。在创建SparkSession时，可以将其设置为"true“或"false”。具体来说，以下是我的问题：在Spark2.3.1中，默认情况下parquet.filter.dictionary.enabled = true还是= false？这是一个特性，在我将写入Parquet文件之前启用(设置为真)，以便Spark的Parquet库计算字典

浏览 1提问于2018-09-14得票数 8

回答已采纳

3回答

PySpark - Hive上下文不返回结果，但是SQL上下文用于类似的查询。

、、、

我注意到，当我在HiveContext和SQLContext中运行PySpark中的类似查询时，性能有很大的差异。database.table在field1上进行分区(用于where子句) from pyspark.sql import SQLContext sqlContext我听说parquet格式的文件在版本1.5之前可能会遇到spark的问题，所以我在spark 1.5.1中使用这些附加设置进行了所有测试：

浏览 0提问于2015-10-14得票数 1

回答已采纳

1回答

不具有分区列性能的火花下推滤波器

我有一个关于spark中的过滤的问题，当你不在过滤器中包括分区列时。假设我有以下按日期分区的数据： part-0001.parquet数据有一个名为"action“的列，其中大约30%的数据值为0，其余的数据值为1spark.read.parquet("s3a://path").fil

浏览 2提问于2020-08-02得票数 0

2回答

在驱动程序(而不是在执行器中)中火花读取orc文件

、、

我有30 s3的ORC文件( 24部分* 1.3G)中的s3。我用火花来读这个兽人并做一些操作。但是，从日志中我观察到，甚至在进行任何操作之前，spark都在打开和读取s3 的所有24个部分(只需12分钟就可以读取文件)。但我在这里担心的是，所有这些读取操作都发生在中，只有在驱动程序和执行器都是空闲的。同样的也适用于地板吗？提前谢谢。

浏览 5提问于2017-10-25得票数 2

回答已采纳

1回答

没有在简单SparkSQL查询中修剪的分区

、、、、

我正在努力从SparkSQL表中高效地选择各个分区(S3中的parquet)。然而，我看到了火花打开表中所有的地板文件的证据，而不仅仅是那些通过过滤器的文件。这使得对于具有大量分区的表，即使是小的查询也会很昂贵。# Make some data df = pandas.DataFrame({'pk': ['a&

浏览 1提问于2015-07-05得票数 6

回答已采纳

1回答

SparkSQL :对于jdbc数据源有"filterPushdown“特性吗？

、

我想知道是不是有一个类似于镶木地板文件的功能"filterPushdown“。我有一个大表，其中有数百万行，我需要加载与某些键和timestamp > certian_timestamp匹配的部分数据。我可以使用"filterPushdown“和类似于"joinPushdown”的东西在数据库中实现这些操作(过滤和连接)吗?？(如果存在)

浏览 26提问于2018-12-26得票数 0

1回答

不能在窗口中启动Pyspark外壳

、、、、

我正试图在windows上启动Pyspark：但是我发现了一个错误：我试图将它添加到我的.bashrc文件中，但是它不起作用。有人能告诉我怎么解决这个问

浏览 13提问于2021-12-23得票数 0

1回答

如何从命令行访问Apache PySpark？

、、

我正在参加一个使用Jupyter笔记本的Apache PySpark在线课程。为了轻松打开Jupyter笔记本，他们让我在我的bash配置文件中输入以下代码行(我使用的是MAC OS)： export SPARK_HOME="(INSERTED MY SPARK DIRECTORY='notebook' 我对Linux不是很熟悉，课程也没有解释这些代码行是做什么的。在此之前，我可以通过命令行输入" PySpark

浏览 9提问于2019-10-04得票数 0

1回答

使用pyspark从Jupyter notebook连接SQL DW

、、

我是pyspark的新手，所以你能建议如何使用jupyter-notebook从Pyspark连接SQL DW吗？我没有使用HDinsight或DataBricks。我已经使用链接设置了pyspark和Jupyter-note书。

浏览 25提问于2019-07-26得票数 0

回答已采纳

1回答

无法在ipython中正确创建火花上下文以链接到MySQL - com.mysql.jdbc.Driver。

、、、、

我正在使用Spark、PySpark、Ipython和mysql运行一个本地环境。我很怀疑能够通过spark启动一个mysql查询。主要问题是包含适当的jdbc，以便能够执行查询。以下是我到目前为止所拥有的：conf = (pyspark.SparkConf() .setAppName(conf=conf) 这是为了正确地创建星火上下文，并正确显示jar的<

浏览 4提问于2015-11-26得票数 3

回答已采纳

1回答

Anaconda与spyder: ImportError:无法导入名称'SparkConf‘

、、、

我已经在anaconda中的testenv上安装了pyspark (通过使用：conda install -c conda-forge pyspark)，它就在这里(我想)这条路径存在，接下来我启动spyder (tes

浏览 1提问于2018-05-09得票数 1

回答已采纳

1回答

FilterPredicates目前不支持火花3x中的重复使用。

、、

我无法在spark 3.2.0中的数组列中过滤df.filter(col("src").getItem(0).equalTo("uid2")).show(false)WARN

浏览 4提问于2022-09-05得票数 1

3回答

什么是pyspark驱动程序？

、

我看到启动pyspark的一个常见设置是使用pyspark --master yarn --deploy-mode client --num-executors 4 --executor-memory您能解释一下什么是驱动程序吗?在这里设置驱动程序对pyspark工作流/性能有何影响？谢谢!

浏览 1提问于2017-10-29得票数 2

1回答

安装Apache后，无法从我的Mac上的任何目录运行pyspark命令

、、

我已经在我的Mac上安装了火花，按照书中的说明：“24小时内的Apache火花”。当我在spark目录中时，我可以使用以下命令运行pyspark：为了安装spark，我创建了env变量：将其添加到路径中：书中说，我应该能够从任何目录中运行"pyspark“或”shell“

浏览 3提问于2017-02-27得票数 2

回答已采纳

6回答

如何在anaconda中导入pyspark

、、、

在安装spark并设置$SPARK_HOME变量之后，我尝试了：这不会起作用(当然)，因为我发现我需要告诉python在$SPARK_HOME/python/下查找pyspark。问题是，要做到这一点，我需要设置$PYTHONPATH，而anaconda不使用该环境变量。我尝试将$SPARK_HOME/python/的内容复制到ANACONDA_HOME/lib/python2.7&

浏览 2提问于2015-11-20得票数 16

4回答

为PySpark创建IPython配置文件

、

我遵循这个链接，以便为IPython创建PySpark配置文件。00-pyspark-setup.pyimport osexecfile(os.path.join(spark_home, '\python\pyspark\shell.py')) 当

浏览 2提问于2015-04-21得票数 7

回答已采纳

3回答

ipython未被识别为内部或外部命令(pyspark)

、、、

我使用的是Windows 10 OS我设置了我的环境变量：路径为D:\spark-2.2.0-bin-hadoo

浏览 1提问于2017-11-18得票数 3

点击加载更多