从pyspark获取客户端

、

我想检索一个文件列表。我看到一篇文章说，这些命令可以完成这项工作：client = Config().get_client('dev')但实际上，执行失败了：HdfsError Traceback (most recent call last) <ipyt

浏览 9提问于2017-01-13得票数 0

1回答

Pyspark - REST API调用以获取azure服务总线连接字符串

、、

我正在尝试使用数据库将消息发送到Azure Service bus主题使用Pyspark代码中定义的连接字符串/使用密钥库。根据客户端策略，他们将频繁更新密钥，因此每次我们需要发送消息时，都会要求使用REST API调用从服务总线获取连接字符串！有没有办法通过rest API调用来实现这一点？

浏览 15提问于2021-08-10得票数 1

2回答

如何从多台机器获取spark streaming的输入？

、

根据Spark for streaming中给出的示例，它通过netcat服务器(nc -lk 9999)作为客户端连接来获取输入。但是，netcat仅限于处理单个客户端。我使用的是pyspark。

浏览 4提问于2015-08-22得票数 1

3回答

设置--master选项时，Apache Spark -“初始作业未接受任何资源源”

、

我在Digital Ocean上设置的集群中使用Spark已经有几个星期了，有一个主站和一个从站，但我一直收到相同的错误“初始作业没有接受任何资源；检查你的集群UI以确保工人已经注册并拥有足够的资源”。/bin/pyspark --master spark://<MASTER-IP>:7077sc.parallelize(range(10))我确信这不是资源的问题，因为我可以从两个节点启动shell并创建rdd，并且在spark-

浏览 1提问于2015-10-13得票数 0

2回答

如何在Pyspark中获取kafka模式注册表？

、、、

我正在查看PySpark的相关库，以便从Kafka获取模式注册表并对数据进行解码。有人知道在中从scala到pyspark的代码/库转换是什么吗

浏览 25提问于2020-02-28得票数 2

回答已采纳

1回答

从Pyspark访问HDFS失败

、、、、

Hadoop和Pyspark似乎都能独立正常工作。然而，我没有设法在Pyspark中从HDFS中获取文件。当我尝试从HDFS获取文件时，我得到以下错误：如果我删除了环境变量，一切都会像以前一样工作。

浏览 1提问于2017-09-21得票数 1

1回答

如何将pyspark数据帧写入不同hadoop集群

、、

我正在尝试备份我从pyspark程序写入hadoop集群的数据。我可以这样做吗？现在，我正在获取一个hadoop集群客户端配置文件，该配置文件在环境变量中设置Hadoop集群的详细信息。然后，我创建了一个spark会话，以便从RDD创建数据帧。

浏览 18提问于2020-06-03得票数 0

1回答

如何在PySpark应用程序中读写Google Cloud Bigtable中的数据？

、、、

我在Google Cloud Dataproc集群上使用Spark，我想在PySpark作业中访问Bigtable。我们有没有像谷歌BigQuery连接器那样的Spark的Bigtable连接器？如何从PySpark应用程序访问Bigtable？

浏览 4提问于2016-11-02得票数 5

1回答

从本地连接到客户端cassandra

、、、

我正在尝试从cassandra获取已安装在AWS ec2中的数据。当我通过pyspark运行以下命令时，我能够从AWS读取，但是当我通过spark-submit提交相同的python文件时，我从本地获取rdd。你能给我推荐一下我缺少配置的地方吗？from pyspark import SparkConf, SparkContext conf = SparkCon

浏览 0提问于2017-04-14得票数 2

2回答

如何创建到远程Spark服务器的连接，并从运行在本地机器上的ipython中读取数据？

、、、

然后从remote server上存在的hdfs文件夹中读取数据。如何从本地ipython notebook创建到Spark服务器的远程连接

浏览 3提问于2015-11-24得票数 6

1回答

Dict2Columns - PySpark

、、、

789| cl | QS |我只是试着只做一行类似这样的事情： #PySpark

浏览 2提问于2019-08-02得票数 0

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

如何在中间层集群上运行PySpark (可能是在客户端模式下)？

、、

我试图在中间层集群上运行一个PySpark作业，但是我似乎无法让它运行。我知道Mesos不支持PySpark应用的集群部署模式，需要在客户端模式下运行。我相信这就是问题所在。当我尝试提交一个PySpark作业时，我得到了下面的输出。... socket.hpp:107] Shutdown failed on fd=48: Transport endpoint is not connected [107] 我认为在客户端模式下运行的我需要更改什么配置才能在客户端模式下运行PySpa

浏览 0提问于2015-09-16得票数 3

1回答

aws胶水触发作业

、、、

我已经修改了一个Glue生成的脚本，用于转换和操作数据。我希望通过触发器在目录中出现的每个新表上运行相同的作业，但不需要在作业脚本中手动更改表名。简而言之，如何在不每次手动更改表名的情况下，对数据目录中出现的每个新表运行脚本提供的相同转换？

浏览 3提问于2018-05-11得票数 0

1回答

如何从本地机器使用python2.7执行aws胶水脚本？

、、、

我想做各种操作，比如获取模式信息，获取AWS Glue控制台中所有表的数据库详细信息。我尝试了以下脚本示例：from awsglue.transforms import *from pyspark.context我发现boto3通过awscli提供了各种客户端调用，我们可以通过client=boto3.client('glue')访问它们。因此，为了像上面这样获取模式信息

浏览 0提问于2018-02-21得票数 6

回答已采纳

2回答

从JSON文件中获取Pyspark模式

、、、

我试图从JSON文件中获取Pyspark模式，但是当我使用Python代码中的变量创建模式时，我能够看到<class 'pyspark.sql.types.StructType'>的变量类型，但是当我试图通过有没有办法通过JSON文件获取pyspark模式？

浏览 0提问于2018-07-05得票数 3

1回答

有没有人能够在Spark中使用elasticsearch xpack sql？

、、、

使用PySpark，我试图从elasticsearch中读取数据。"query": { } 但是，最近我在kibana上尝试了_xpack/sql，在其他SQL客户端上尝试了JDBC，它们在获取数据方面都工作得很好。但是，当我尝试在我的pyspark代码中引用_xpack时，我得到了以下错误： Py4JJavaError:

浏览 0提问于2019-01-31得票数 3

2回答

如何在PySpark中从向量结构中获取项目

、、

我正在尝试从TF-IDF结果向量中获取分数数组。

浏览 12提问于2020-02-27得票数 1

回答已采纳

2回答

AttributeError:不能在<模块'pyspark.cloudpickle‘>上获得属性'_fill_function’>来自‘pyspark/cloudpickle/__init_..py’>

、、

当从脚本中执行pyspark代码时。在df.show()时获取以下错误。from pyspark.sql.types import StructType,StructField, StringType, IntegerTypedf.show(truncate=False) AttributeError: Can't get attribute '_fill_funct

浏览 12提问于2021-06-06得票数 2

1回答

pyspark中的first_value窗口函数

、、、

我正在使用pyspark 1.5从Hive表中获取数据，并尝试使用窗口函数。鉴于pyspark不支持UserDefinedAggregateFunctions (UDAF)，有没有办法实现这一点？

浏览 4提问于2016-02-02得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pyspark - REST API调用以获取azure服务总线连接字符串

如何从多台机器获取spark streaming的输入？

设置--master选项时，Apache Spark -“初始作业未接受任何资源源”

如何在Pyspark中获取kafka模式注册表？

从Pyspark访问HDFS失败

如何将pyspark数据帧写入不同hadoop集群

如何在PySpark应用程序中读写Google Cloud Bigtable中的数据？

从本地连接到客户端cassandra

如何创建到远程Spark服务器的连接，并从运行在本地机器上的ipython中读取数据？

Dict2Columns - PySpark

使用配置单元元数据读取HDFS文件- Pyspark

如何在中间层集群上运行PySpark (可能是在客户端模式下)？

aws胶水触发作业

如何从本地机器使用python2.7执行aws胶水脚本？

从JSON文件中获取Pyspark模式

有没有人能够在Spark中使用elasticsearch xpack sql？

如何在PySpark中从向量结构中获取项目

AttributeError:不能在<模块'pyspark.cloudpickle‘>上获得属性'_fill_function’>来自‘pyspark/cloudpickle/__init_..py’>

pyspark中的first_value窗口函数

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐