将配置单元表卸载到。使用Spark或pyspark或python的dat文件

文章/答案/技术大牛

发布

1回答

python、pyspark、apache-spark-sql、hiveql

我目前正在使用hql将数据从配置单元表卸载到文本文件中。因为它花费了太多的时间。我想去spark或pyspark.I。我是spark/ please的新手。你能帮我解决这个问题吗?我正在使用下面的查询来卸载 beeline --outputformat=dsv --silent=true - e 'select * from

浏览 11提问于2019-10-04得票数 0

1回答

在shell oozie操作中读取python脚本中的hive表

python-2.7、hadoop、hive、oozie-workflow

我在一个oozie shell操作中运行了以下python脚本shell_csv.sh： #!/usr/bin/env python import sysimport subprocess csv.field_size_limit(300000user/files/csv_2.csv"], stdout=subprocess.PIPE, stderr=subprocess.PIPE).communicate() 它可以很好地处理"csv_

浏览 28提问于2021-08-06得票数 0

1回答

需要替换存储在hdfs中的地块文件中的控制字符

apache-spark、hive、apache-pig、parquet

我正在将数据作为拼图文件从MySQL导入hdfs，并在其上构建一个配置单元外部表，但该文件中几乎没有不需要的控制字符，这些字符也被加载到配置单元表中。我需要用一个空字符串替换它们。以下是返回问题的spark代码。PYSPARK代码：# using SQLContext to re

浏览 3提问于2017-12-02得票数 0

1回答

无法通过PySpark访问配置单元

apache-spark、hadoop、hive、pyspark

我是Hadoop/Spark/Hive的新手！使用标准的Derby DB，我可以通过终端访问hive并创建数据库、表，然后很好地查询这些表。我的metastore_db位于~/hivemetastore/metastore_dbhadoop fs -mkdir -p /用户/配置单元/仓库 hadoop fs -mkdir-p /t

浏览 0提问于2018-10-04得票数 1

2回答

未在PySpark中加载的扩展程序:没有名为elephas.spark_model的模块

python、apache-spark、pyspark、keras、distributed-computing

我试图在集群上分发Keras培训，并为此使用Elephas。8)：org.apache.spark.api.python.PythonException: Traceback (最近调用的最后一次)：at org.apache.spark.api.python.PythonRunner$$anon$1

浏览 0提问于2018-03-06得票数 1

回答已采纳

4回答

让Pyspark在jupyterhub内部工作

python、apache-spark、pyspark、ipython-notebook、jupyterhub

我有一台装有JupyterHub (Python2、Python3、R和Bash内核)的机器。我让Spark(scala)和离线的PySpark工作。我甚至可以在交互式IPython笔记本中使用PySpark，命令如下：(打开一个Jupyter笔记本，在Python2中我可以<

浏览 0提问于2015-07-21得票数 3

1回答

将PySpark从停靠容器连接到本地计算机的配置单元表

docker、hive、pyspark

我已经使用Pyspark构建了一个决策树模型，并希望使用docker容器部署该模型。我使用的是spark 1.6.0。数据存储在Hive表中，并位于我的本地计算机中。有没有一种方法可以将PySpark从我的停靠容器连接到我本地计算机中的配置单元表？我的配置单元表</e

浏览 7提问于2018-12-30得票数 0

1回答

在AWS EMR中如何将木星笔记本设置为Python3而不是Python2.7

python-3.x、amazon-web-services、jupyter-notebook、amazon-emr

当使用木星导入相关的Python模块时，就会出现困难。我有一个shell脚本，它在EMR启动和导入Python模块时执行。我已经设置了以下配置。我尝试过将python改为python3.6和pytho

浏览 0提问于2019-08-15得票数 2

回答已采纳

1回答

找不到保存到配置单元表的pyspark数据帧

apache-spark、hive、pyspark、cloudera-cdh

使用pyspark创建一个dataFrame，然后将其保存到hive。已在仓库中正确创建该文件，但无法使用show tables在配置单元或impala中找到该文件。它可以通过spark sql使用sql.(“show tables”)找到。但它只显示了以前由spark代码创建的表，这意味着它不能看到通过hive或impala控制台创建

浏览 12提问于2019-05-15得票数 0

2回答

星火作业中不存在蜂窝表。

python、hadoop、apache-spark、hive、pyspark

我正在使用电子病历中的蜂巢Metastore。File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql&#x

浏览 1提问于2017-12-20得票数 3

回答已采纳

1回答

在火花中，spark.executor.pyspark.memory配置选项的含义是什么？

apache-spark、pyspark

文件说明如下：除非另有规定，否则在每个执行器中分配给PySpark的内存量，在MiB中分配。如果设置了，执行器的PySpark内存将被限制在此数量之内。如果没有设置，Spark将不会限制Python的内存使用，这取决于应用程序避免超过与其他非JVM进程共享的开销内存空间。当PySpark在YARN或Kubernetes中运行时，此内存将添加到执行器资源请求中。

浏览 5提问于2021-07-04得票数 6

回答已采纳

1回答

在Spark* SQL中使用collect_list和collect_set*

apache-spark、hive、apache-spark-sql

根据的说法，collect_set和collect_list函数应该在Spark SQL中可用。但是，我不能让它工作。我正在使用运行Spark 1.6.0。我正尝试在Scala中做到这一点： .agg(collect_set("column2")) 并在运行时收到以下错误： Exception in threa

浏览 7提问于2016-02-21得票数 16

回答已采纳

1回答

创建一个完全隔离的python* venv*

python、apache-spark、pyspark、hadoop-yarn、python-venv

我在yarn集群上部署了pyspark应用程序，在所有节点都可以访问的挂载上部署了python venv。我遇到的问题是，节点上的python安装是不一致的，有些节点安装了必需的模块(这是python构建的一部分)，而其他节点则不安装，这会导致频繁的崩溃。我注意到，在使用python -m venv创建一个venv时，它并不复制python安装，

浏览 23提问于2022-10-10得票数 0

3回答

如何从jupyter笔记本访问pyspark

pyspark、jupyter-notebook

我已经在Ubuntu14.04上的ipython笔记本中成功地使用了pyspark和Python2.7，为spark创建了一个特殊的配置文件，并通过调用$ipython notebook --profile许多网站上都给出了创建spark配置文件的机制，但我使用的是中给出的机制。Python，Pyspa

浏览 1提问于2016-06-25得票数 0

1回答

pyspark线程池执行器日志管理

python、logging、pyspark、threadpoolexecutor

我正在使用PYSPARK提取文件，并进行基本转换并将数据加载到配置单元。使用for循环查找提取文件并将其加载到Hive。我们大约有60张桌子。循环每个文件和加载都需要时间。所以使用ThreadpoolExecutor来并行运行线程。以下是示例代码原型。我正在将spark-submit日志重定向到一个文件。但是在使用threadp

浏览 4提问于2021-10-27得票数 0

3回答

使用常规Jupyter Notebook导入PySpark包

apache-spark、pyspark、jupyter-notebook

除了正确导入包之外，pyspark到底在做什么？是否可以使用常规的jupyter notebook，然后导入所需的内容？

浏览 6提问于2016-02-29得票数 2

2回答

星星之火SQL RDD加载在pyspark中，但没有在SQL中加载-提交："JDBCRDD:关闭连接“

apache-spark、jdbc、pyspark

我有以下简单代码，用于将表从Postgres数据库加载到RDD中。/bin/pyspark，将其粘贴到解释器中，并按预期从表中打印数据。现在，如果我将代码保存到一个名为test.py的文件中，然后执行.我没有启动任何主程序或奴隶；spark-submit是我在系统启动后运行的唯一命令。我尝试了主从设置，结果是相同的。我的spark</

浏览 4提问于2017-02-16得票数 0

4回答

PySpark java.io.IOException:方案没有FileSystem : https

pyspark、apache-spark-sql、pyspark-sql

我正在使用本地窗口，并试图用python上的以下代码加载XML文件，我遇到了这个错误，有人知道如何解决它吗？\spark-2.2.0-bin-hadoop2.7\python\pyspark\sql\readwriter.py in load(self, path, format, schema, **options= list: C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python<

浏览 87提问于2017-11-17得票数 4

回答已采纳

17回答

如何将PyCharm与PySpark连接？

python、apache-spark、pyspark、pycharm、homebrew

但是，我使用Pycharm在python中编写脚本。问题是:当我去Pycharm并尝试调用pyspark时，Pycharm找不到模块。as e: sys.exit(1) 是否知道如何正确地将Pycharm与

浏览 13提问于2016-01-08得票数 88

回答已采纳

2回答

如何从Apache访问Hive表？

apache-spark、hive、apache-spark-sql

我已经设置了一个hive datamart，并使用spark框架来查询表和执行ETL活动，现在我希望用户通过从他们的本地机器连接来访问蜂箱表，并且查询应该使用spark框架。

浏览 1提问于2019-04-11得票数 0

回答已采纳

点击加载更多