使用python在spark中进行模式验证

在云计算领域中，使用Python在Spark中进行模式验证是一种常见的做法。Spark是一个开源的大数据处理框架，它提供了强大的分布式计算能力，可以处理大规模数据集。

模式验证是指对数据集的结构进行验证，确保数据符合预期的格式和规范。在Spark中，可以使用Python编写代码来进行模式验证。以下是一个完善且全面的答案：

模式验证的概念：模式验证是指对数据集的结构进行验证，包括数据类型、字段顺序、字段名称等方面的验证。通过模式验证，可以确保数据集的结构符合预期，以便后续的数据处理和分析。

模式验证的分类：模式验证可以分为静态模式验证和动态模式验证两种类型。

静态模式验证：静态模式验证是在数据加载阶段进行的验证，通过指定预期的模式，对数据进行验证。如果数据与预期的模式不匹配，将会抛出异常或警告。
动态模式验证：动态模式验证是在数据处理过程中进行的验证，根据数据的实际情况动态地进行模式验证。例如，在数据转换过程中，可以根据数据的内容和上下文进行模式验证。

模式验证的优势：

数据质量保证：模式验证可以确保数据集的结构符合预期，避免因数据格式错误导致的数据质量问题。
提高数据处理效率：通过模式验证，可以在数据加载阶段或数据处理过程中快速发现数据结构错误，避免在后续的数据处理过程中出现错误。
简化数据处理流程：模式验证可以帮助开发人员快速了解数据集的结构，简化数据处理流程，提高开发效率。

模式验证的应用场景：模式验证在大数据处理和分析中具有广泛的应用场景，包括但不限于以下几个方面：

数据清洗：在数据清洗过程中，可以使用模式验证来确保数据的结构符合要求，去除不符合预期的数据。
数据转换：在数据转换过程中，可以使用模式验证来验证数据的结构，确保转换后的数据符合预期。
数据分析：在数据分析过程中，可以使用模式验证来验证数据的结构，确保分析所使用的数据符合预期。

推荐的腾讯云相关产品和产品介绍链接地址：腾讯云提供了一系列与大数据处理和云计算相关的产品，以下是其中几个与Spark相关的产品：

腾讯云EMR（Elastic MapReduce）：腾讯云EMR是一种大数据处理平台，基于开源的Hadoop和Spark，提供了强大的分布式计算能力。详情请参考：腾讯云EMR产品介绍
腾讯云COS（对象存储）：腾讯云COS是一种高可靠、低成本的云端存储服务，可以用于存储和访问大规模数据集。详情请参考：腾讯云COS产品介绍
腾讯云SCF（云函数）：腾讯云SCF是一种事件驱动的无服务器计算服务，可以用于编写和运行与Spark相关的代码。详情请参考：腾讯云SCF产品介绍

总结：使用Python在Spark中进行模式验证是一种常见的做法，可以通过静态或动态模式验证来确保数据集的结构符合预期。腾讯云提供了与Spark相关的产品，如EMR、COS和SCF，可以帮助开发人员进行大数据处理和云计算。

Spark json模式验证

、、、、

我使用python library Draft7Validator ()为每个文件测试json模式。不幸的是，它很慢，在scala/java中有没有一个库，我可以在Spark中使用它来验证每个文件的json模式。

浏览 0提问于2020-07-16得票数 1

1回答

如何修复: pods“是被禁止的: User”system:匿名“无法查看API组”中名称空间“默认”中的资源"pods“。

、、

我试图在k8上运行我的星星之火，我已经使用以下命令设置了我的RBAC： kubectl create serviceaccount spark kubectl create clusterrolebinding spark-role --clusterrole=edit --serviceaccount=default:spark --namespace=default 来自k8集群外部的Spark命令： bin/spark-submit --master k8s://https://<master_ip>:6443 --deploy-mode cluster --conf s

浏览 4提问于2020-05-24得票数 0

1回答

两个docker镜像之间的通信

、、、

我有一个名为spark-docker的spark的docker镜像和卡桑德拉官方的docker镜像cassandra。我想从spark-docker运行一个spark-submit作业，它将在cassandra中写入数据。 spark-docker的Dockerfile如下： FROM bde2020/spark-python-template:2.4.0-hadoop2.7 MAINTAINER Rafiul RUN pip install --upgrade pip RUN pip install pyspark cassandra-driver 我使用以下命令来完成此操作。 doc

浏览 22提问于2019-01-23得票数 0

1回答

无法从Kafka接收数据到Spark流

、、、、

我正在尝试使用eclipse IDE中的java代码通过kafka producer生成一些随机数据。我在kafka consumer中收到了相同的数据，它也是在同一个IDE中使用java代码创建的。我的工作依赖于流数据。所以，我需要spark streaming来接收kafka生成的随机数据。对于spark streaming，我在jupyter-notebook中使用python代码。要集成kafka和spark，必须在spark jar中添加“spark-streaming kafka-0-10_2.12-3.0.0.jar”文件。我还尝试在pyspark中添加jar文件。这是我的spa

浏览 0提问于2020-11-09得票数 1

4回答

触发Python错误"FileNotFoundError：[WinError 2]系统找不到指定的文件“

、、、

我是斯派克和Python的新手。我在windows上安装了python 3.5.1和Spark-1.6.0-bin-hadoop2.4。当我从python执行sc = SparkContext("local"，"Simple“)时，我得到了以下错误。你能帮忙吗？从火花放电导入SparkConf，SparkContext sc =SparkContext(“本地”、“简单应用程序”) 回溯(最近一次调用)：文件""，第1行，在 sc = SparkContext("local", "Simple App") 文

浏览 4提问于2016-02-17得票数 8

2回答

从带有帐户密钥认证和ABFS驱动程序的Synapse笔记本中读取ADLS

、、、、

我试图在Synapse中从ADLS Gen2读取一个文件，并希望使用帐户密钥进行身份验证。中，以下内容应该有效，但在Synapse中不起作用： spark.conf.set(f"fs.azure.account.key.{adls_account_name}.dfs.core.windows.net", adls_account_key) 我想按照的建议使用ABFS驱动程序：优化驱动程序: ABFS驱动程序是专门针对大数据分析而优化的。相应的REST通过端点dfs.core.windows.net出现。不起作用的是：当我使用pyspark+ABFS并在Syn

浏览 13提问于2022-02-23得票数 0

回答已采纳

1回答

流式作业失败-状态架构不兼容问题

、

我的流作业现在失败了，错误如下，流作业几乎工作了2个月，而且它是完全无状态的转换，只需要将新行追加到目标增量表中。在流式传输之前，我手动提供了csv文件的模式，甚至验证了流式作业模式和下游表模式都与数据类型完全匹配。不确定，为什么即使在无状态转换中，我也会得到下面的错误。任何帮助都将不胜感激。 File "/databricks/spark/python/lib/py4j-0.10.9-src.zip/py4j/java_gateway.py", line 2442, in _call_proxy return_value = getattr(self.pool[obj_id

浏览 2提问于2021-06-11得票数 1

1回答

火花纱-客户端模式Python版本

、、、

我正在尝试用PySpark在yarn客户端模式下运行python模块。我的集群上的默认python是2.6.6，我想使用Python3，它安装在我的集群上的$/apps/anaconda/4.3.1/3/bin/python3.6路径下。当我通过下面的spark2-submit运行Spark模块时，它失败了，说明使用的是错误的Python版本。当我用yarn-cluster在集群模型中运行相同的代码时，它成功了。我的问题是:我该如何解决这个问题？如何让它在python3.6的yarn-client模式下工作？ spark2-submit --master yarn --deploy-mode

浏览 0提问于2017-11-12得票数 3

1回答

使用pem密钥和客户端证书的KAFKA SSL连接

、、、、

我可以在client.properties中使用下面的ssl详细信息连接到kafka并从命令行界面(bin/kafka-console-consumer.sh)读取数据 ssl.keystore.location=/test/keystore.jks ssl.keystore.password=abcd1234 ssl.key.password=abcd1234 Command: bin/kafka-console-consumer.sh --bootstrap-server 'server details' --topic topic_name --consumer.co

浏览 51提问于2020-10-27得票数 3

1回答

用CloudFormation创建的EMR集群未显示

、、、

我在堆栈中添加了一个EMR集群。在成功地更新堆栈(CloudFormation)之后，我可以看到EC2控制台中的主从节点，并且可以将SSH放到主节点中。但是AWS控制台没有显示新集群。甚至连aws emr list-clusters都没有显示集群。我已经三次检查了这个区域，我确信我正在寻找正确的区域。相关的CloudFormation JSON： "Spark01EmrCluster": { "Type": "AWS::EMR::Cluster", "Properties": { "Name":

浏览 0提问于2018-04-23得票数 2

回答已采纳

1回答

使用Kafka和Schema注册中心，我对Avro数据进行编码和解码，但是我如何处理下游的GenericRecord数据处理呢？

、、、、

我正在为我们的项目建立一个遥测管道处理。我有AVRO编码，并使用模式注册表，我正在解码Avro数据为基于SchemaID的GenericRecord。我计划运行Spark作业进行进一步的下游处理。但是，在Spark作业中处理数据模型的最佳方法是什么？所有的例子都指向使用result.get("fieldname")，但这是建议的方式吗？

浏览 12提问于2017-08-19得票数 1

1回答

运行pyspark时获取Java输出

、、、

当我在Ubuntu上的Jupyter Notebook中运行PySpark时，我有时会遇到Java失败的问题。我想要看到的是Java端的错误，因为我所能看到的通常是Python的很长的一般性错误，可以总结为： ERROR:root:Exception while sending command. Traceback (most recent call last): File "/opt/conda/lib/python3.6/site-packages/py4j/java_gateway.py", line 1207, in send_command raise P

浏览 7提问于2021-02-02得票数 0

1回答

pyspark -在Python代码中设置spark.driver.extraJavaOptions，而不是spark-submit或spark-defaults

、、

我喜欢避免使用spark-submit，而是使用python driver_file.py开始我的PySpark代码我们使用spark.driver.extraJavaOptions和spark-submit或spark-defaults配置文件设置了一些代理设置。相反，我希望在Python代码中设置此选项，以便可以使用python driver_file.py运行它但是，由于某些原因，当我尝试使用以下代码执行此操作时，我无法访问我试图访问的资源。但是通过在spark-default中使用相同的选项，我可以做到。我做错了什么？ sconf = SparkConf().set("sp

浏览 88提问于2018-06-22得票数 2

2回答

如何使用spark-submit在Kubernetes (minikube)上提交PySpark作业

、、、

我的笔记本电脑上有一个本地的PySpark作业。如果我想使用spark-submit在minikube集群上提交它，你知道如何传递python文件吗？我正在使用下面的命令，但它不起作用 ./spark-submit \ --master k8s://https://192.168.64.6:8443 \ --deploy-mode cluster \ --name amazon-data-review \ --conf spark.kubernetes.namespace=jupyter \ --conf spa

浏览 1提问于2020-05-10得票数 1

3回答

我是否可以在集群部署模式下运行笔记本？

、、

上下文：集群配置如下：所有东西都在用码头文件运行。 node1:火花母版 node2: jupyter集线器(我也在这里运行笔记本) 节点3-7:火花工作节点我可以将工作节点的telnet和ping发送到node2，反之亦然。问题：--我正试图在吡火花jupyter笔记本中创建一个火花会话，它以集群部署模式运行。我试图让驱动程序在一个不是运行jupyter笔记本的节点上运行。现在，我可以在集群上运行作业，但只能在node2上运行驱动程序。经过深入研究，我发现了这个，它声称，如果您运行一个带有火花的交互式shell，您只能在本地部署模式下这样做(在该模式下，驱

浏览 10提问于2017-09-01得票数 8

回答已采纳

1回答

增加spark实例的执行器数量

我正在通过pyspark启动一个spark实例。我使用的系统是EC2上的r3.8x，内存为244gb，vCPU为32。我使用的代码是 #Import Packages import os import sys import pandas as pd import numpy as np import glob import shutil #Initialize Spark Environment spark_path = "C:\spark" os.environ['SPARK_HOME'] = spark_path os.environ['HADOO

浏览 1提问于2017-07-24得票数 1

2回答

使用azure databricks中的validate_email包验证电子邮件是否有300k记录导致超时错误

、、、、

我正在尝试使用validate_email包验证300000个邮件ids，并将其写入azure databricks中的csv，在那里我得到了超时错误。 Py4JJavaError Traceback (most recent call last) <command-365284720716518> in <module>() ----> 1 latest_dup_df.write.format("com.databricks.spark.csv").option("head

浏览 24提问于2019-09-11得票数 0

1回答

在Windows 10中运行Spark和Ipython :异常: worker中的Python版本3.4与驱动程序3.5中的版本不同

、、、

我遵循了这个简单的教程，但我正在尝试在Windows上这样做。当我最终运行代码时 file = sc.textFile("C:\war_and_peace.txt") warsCount = file.filter(lambda line:"war" in line) peaceCount = file.filter(lambda line:"peace" in line) warsCount.count() 我得到一个关于文件Python第64行的错误，在主异常中: worker中的"C:\Spark\python\lib\pyspar

浏览 0提问于2016-07-08得票数 0

1回答

在EMR木星中心笔记本上不工作于火花放电内核的可视化技术

、、、、

我试着在EMR木星中心笔记本上用巧妙的方式绘制图表，但是这些图表并不是在Pyspark内核中呈现的。(注意: Python内核可以很好地呈现图形) 我正在尝试的示例代码： data_canada = px.data.gapminder().query("country == 'Canada'") fig = px.bar(data_canada, x='year', y='pop') fig.show() I am able to plot a graph with %%display sparkmagic however I

浏览 3提问于2020-10-06得票数 1

回答已采纳

1回答

结构化流输出没有显示在木星笔记本上。

、、、、

我有两本笔记本。第一个笔记本是使用tweepy读取twitter上的tweet并将其写入套接字。其他笔记本电脑则使用火花结构化流(Python)从插座上读取tweet，并将其结果写入控制台。不幸的是，我没有在jupyter控制台上获得输出。密码对吡咯烷酮很有效。 spark = SparkSession \ .builder \ .appName("StructuredStreaming") \ .getOrCreate() spark.sparkContext.setLogLevel("ERROR") # This is Spark

浏览 2提问于2020-04-27得票数 7

回答已采纳

1回答

在pyspark代码中加载外部库

、、、

我有一个在本地模式中使用的星体集群。我想阅读带有databricks外部库spark.csv的csv。我启动我的应用程序如下： import os import sys os.environ["SPARK_HOME"] = "/home/mebuddy/Programs/spark-1.6.0-bin-hadoop2.6" spark_home = os.environ.get('SPARK_HOME', None) sys.path.insert(0, spark_home + "/python") sys.path.ins

浏览 3提问于2016-02-11得票数 2

回答已采纳

1回答

无法在mac中安装spark

、、、、

我在安装了java的macbook中使用了python 3.6，并下载了spark 2.3.1，但spark无法成功安装。顺便说一句，我成功地使用了pip3安装pyspark。我不知道这是怎么回事！我在终端上附加了我的bash_profile和我的错误！在bash_profile中 export java_HOME="/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/HOme/" export SPARK_HOME="/Library/Frameworks/Pytho

浏览 2提问于2018-10-15得票数 2

1回答

EMR上的德尔塔湖和齐柏林飞艇给出的“configure_spark_with_delta_pip”没有定义

、、

我试图使用齐柏林的三角洲湖运行电子病历。下面是我的简单引导脚本，我使用的火花-δ0.0.1作为火花版本的EMR是2.4.4。当我试图在笔记本中创建火花会话时，我会出现以下异常。未能执行第7行: spark = configure_spark_with_delta_pip(builder).getOrCreate()回溯(最近一次调用)：文件"/tmp/zeppelin_pyspark-2848864742877081666.py"，第380行，在exec(代码，_zcUserQueryNameSpace)文件"“中，第7行，在NameError: name '

浏览 24提问于2022-02-17得票数 0

回答已采纳

1回答

PySpark3在将yyyyMMddhhmmss解析为TimestampType()时没有属性'tzinfo‘错误

、

我有这个csv文件(test.csv)，它包含以下内容： COLUMN_STRING;COLUMN_INT;COLUMN_TIMESTAMP String_Value_1;123456;20131226224757 String_Value_2;234567;20141227234858 String_Value_3;345678;20151228214555 我试图使用以下代码将第3列时间戳yyyyMMddhhmmss导入到TimestampType()中： from pyspark.sql.types import * data = sc.textFile('test.csv

浏览 1提问于2017-02-21得票数 3

1回答

将行附加到dataframe

、、

我正试图在现有的数据文件中合并一行。我有以下模式的现有数据:- StructType(List(StructField(date,TimestampType,true), StructField(time,StringType,>true), StructField(size,IntegerType,true), StructField(r_version,StringType,true), StructField(r_arch,StringType,true),

浏览 2提问于2017-07-12得票数 0

1回答

基于AWS重力的电子病历中基于EC2实例的升级导致任务失败

、、

我在EMR中运行了一个spark作业，我正在努力改进它。到目前为止，它运行在m5.8 x上，没有任何问题。我最近尝试升级到基于Graviton的EC2实例m6g.8xlarge，虽然这项工作确实成功了，但我看到了一些奇怪的问题。我看到的一些问题是由于超时导致任务失败，阶段以奇怪的顺序运行，看起来内存紧张。无序运行的阶段是有失败任务的阶段，阶段6运行失败，然后阶段4和5完成，然后第6阶段重试成功。在当前正在工作的m5.8xlarge运行中，跳过了第4和第5阶段。我不知道为什么会发生这种情况，因为我所做的唯一改变是从一个m5实例类型到一个m6g类型，所以我想看看是否有人经历过类似的事情或者有解决方

浏览 4提问于2022-02-24得票数 0

3回答

如何在PySpark中读取Avro文件

、、、

我正在写一个使用python的spark作业。然而，我需要读入一大堆avro文件。是我在Spark的example文件夹中找到的最接近的解决方案。但是，您需要使用spark-submit提交此python脚本。在spark-submit的命令行中，你可以指定driver- class，在这种情况下，所有的avrokey，avrovalue类都会被定位。 avro_rdd = sc.newAPIHadoopFile( path, "org.apache.avro.mapreduce.AvroKeyInputFormat",

浏览 5提问于2015-04-21得票数 14

回答已采纳

1回答

Spark SQL -确定架构时出现运行时异常

、、、

我正在尝试从我的笔记本电脑查询远程(本地)配置单元数据库中的表。我使用的是spark sql。我能够连接到它并检索最新的分区。但是，当我尝试检索一个列(比方说pid)时，它抛出下面的错误： 19/10/08 15:01:19 ERROR Table: Unable to get field from serde: org.apache.hadoop.hive.serde2.avro.AvroSerDe java.lang.RuntimeException: MetaException(message:org.apache.hadoop.hive.serde2.SerDeException

浏览 116提问于2019-10-09得票数 0

1回答

无法使用kubernetes pod内的纱线创建spark会话

、

我有一个安装了spark客户端的kubernetes pod。 bash-4.2# spark-shell --version Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.1.1.2.6.2.0-205 /_/ Using Scala version 2.11.8, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_

浏览 21提问于2019-10-31得票数 0

5回答

在Python中获取parquet文件的模式

、

有没有什么python库可以用来只获取parquet文件的模式？目前，我们正在Spark中将拼图文件加载到dataframe中，并从dataframe中获取模式以显示在应用程序的某些UI中。但初始化spark-context和加载数据帧以及从dataframe中获取模式是一项耗时的活动。因此，我们正在寻找一种替代方法来获取模式。

浏览 9提问于2017-01-10得票数 9

1回答

将本地python脚本连接到远程spark master

、、、

我使用的是带有spark独立集群的python 2.7。当我在运行python脚本的同一台机器上启动主服务器时。它工作起来很顺畅。当我在远程机器上启动主机，并尝试在本地机器上启动spark context以访问远程spark主机时。什么都没有发生，我收到一条消息，说任务没有获得任何资源。当我访问主控程序的UI时。我看到了这份工作，但它什么也没发生，它就在那儿。如何通过本地python脚本访问远程spark master？谢谢。编辑:我读到为了做到这一点，我需要在集群模式(而不是客户机模式)下运行集群，我发现目前。想法？

浏览 27提问于2017-08-25得票数 2

回答已采纳

2回答

错误:找不到py4j，您的SPARK_HOME可能无法正确配置

、、、

在木星笔记本里，我无法跑到进口以下。 findspark.init('home/ubuntu/spark-3.0.0-bin-hadoop3.2') 获取以下错误： --------------------------------------------------------------------------- ~/.local/lib/python3.6/site-packages/findspark.py in init(spark_home, python_path, edit_rc, edit_profile) 144 except Inde

浏览 7提问于2020-08-25得票数 10

1回答

为什么应用程序运行时火花驱动程序不运行？

、、

我是一个初学者，试图通过一些例子来了解应用程序和驱动程序的行为。我从以下几个方面开始：运行独立的群集管理器运行一个调用./sbin/start-master.sh的主程序运行一个调用./sbin/start-slave.sh spark://localhost:7077的工作人员以客户端模式启动测试应用程序，方法是： ./bin/spark-submit \ --master spark://localhost:7077 \ ./examples/src/main/python/pi.py 根据运行应用程序的main()函数并创建SparkConte

浏览 2提问于2020-06-13得票数 1

回答已采纳

2回答

IntegerType : TypeError: pyspark不能接受类型为<type 'unicode'>的对象

、、、

在Spark集群上使用pyspark编程，数据量大且分片，因此不能轻松地加载到内存中或检查数据的健全性基本上它看起来像是 af.b Current%20events 1 996 af.b Kategorie:Musiek 1 4468 af.b Spesiaal:RecentChangesLinked/Gebruikerbespreking:Freakazoid 1 5209 af.b Spesiaal:RecentChangesLinked/Sir_Arthur_Conan_Doyle 1 5214 维基百科数据：我从亚马逊网络服务的S3上读到它，然后尝试用pyspark解释器中的以下p

浏览 0提问于2015-10-14得票数 11

回答已采纳

1回答

python程序"java.lang.OutOfMemoryError: Java堆空间“的火花错误

、、

我按照下面的命令运行了我的python kmeans程序： ./bin/spark-submit --master spark://master_ip:7077 my_kmeans.py 主要的python kmeans程序如下所示： sc = spark.sparkContext # data X = jl.load('X.jl.z') data_x = sc.parallelize(X) # kmeans model = KMeans.train(data_x, 10000, maxIterations=5) 文件'X.jl.z'大小为100 m。但我得到

浏览 5提问于2017-03-13得票数 1

1回答

从本地spark访问bluemix对象存储

、、、

我无法从本地独立的spark集群访问对象存储上的文件。这是代码- sqlCxt = SQLContext(sc) prefix = "fs.swift.service." + creds['name'] hconf = sc._jsc.hadoopConfiguration() hconf.set(prefix + ".auth.url", creds['auth_url'] + '/v2.0/tokens') hconf.set(prefix + ".auth.endpoint.prefix",

浏览 1提问于2016-04-22得票数 0

1回答

如何重新启动已停止的Spark上下文？

、、、

我使用apache zeppelin和hadoop运行Spark。我的理解是，Zeppelin就像一个kube应用程序，它向运行Spark并使用Hadoop访问文件的远程机器发送命令。我经常遇到Spark上下文被停止的情况。在过去，我认为这是因为我使用了需要太多数据的数据拉取使系统过载，但现在我对这个理论不那么热衷了。我经常在运行完全合理和正常的查询后发生这种情况。为了重新启动spark上下文，我转到解释器绑定设置并重新启动了Spark。我还运行了这个命令 %python JSESSIONID="09123q-23se-12ae-23e23-dwtl12312 YOURFOLD

浏览 1提问于2020-05-18得票数 1

3回答

调试python-spark代码的最佳实践

、、

我想单步执行python-spark代码，同时仍然使用yarn。我现在这样做的方式是启动pyspark shell，复制粘贴，然后逐行执行代码。我想知道是否有更好的方法。如果pdb.set_trace()能够工作，那么它将是一个更有效的选择。我在spark-submit --master yarn --deploy-mode client上试过了。程序确实停了下来，并在调用pdb.set_trace()的那一行给了我一个shell。但是，在shell中输入的任何pdb命令都会被挂起。pdb.set_trace()被插入在spark函数调用之间，据我所知，应该在本地运行的驱动程序中执行，并附加

浏览 0提问于2018-03-13得票数 8

2回答

从Spark作业执行sudo命令

、

我正在尝试以集群模式从Spark scala作业执行python脚本，如下所示。 import scala.sys.process._ Process("sudo -n python helloWorld.py").!! 我收到"sudo:需要密码“消息。我尝试在文件末尾使用'sudo visudo‘为用户设置中解释的NOPASSWD，如下所示： <username> ALL=(ALL) NOPASSWD: ALL 然而，它并没有起作用。我仍然得到相同的错误。会出什么问题呢？

浏览 0提问于2018-10-22得票数 0

10回答

星星之火2.1 -实例化HiveSessionState时出错

使用Spark2.1的新安装，我在执行pyspark命令时得到了一个错误。 Traceback (most recent call last): File "/usr/local/spark/python/pyspark/shell.py", line 43, in <module> spark = SparkSession.builder\ File "/usr/local/spark/python/pyspark/sql/session.py", line 179, in getOrCreate session._jsparkSession.se

浏览 7提问于2017-03-22得票数 9

回答已采纳

1回答

将pyspark脚本提交到远程Spark服务器？

、、

这可能是一个非常愚蠢的问题，但我在谷歌上找不到答案。我已经编写了一个简单的pyspark ETL脚本，它读取CSV并将其写入Parquet，类似于： spark = SparkSession.builder.getOrCreate() sqlContext = SQLContext(spark.sparkContext) df = sqlContext.read.csv(input_filename) df.write.parquet(output_path) 为了运行它，我在Docker中启动了一个本地Spark集群： $ docker run --network=host jupyter/

浏览 0提问于2019-02-12得票数 6

1回答

无法使用pyspark通过ssl连接到mongodb

、、、、

pyspark版本: 2.3.4 mongodb : 4.2 我已经为我的mongodb设置了ssl，现在我正在尝试使用pyspark连接mongodb和SSL 我的示例代码： from pyspark.sql import SparkSession my_spark = SparkSession \ .builder \ .appName("mySparkMongoJob") \ .config("spark.mongodb.input.uri", "mongodb://admin:password@www.mongod.co

浏览 1提问于2021-01-29得票数 0

1回答

java.util.NoSuchElementException:未找到密钥：_PYSPARK_DRIVER_CALLBACK_HOST

、、

我在PyCharm上使用PyCharm 2019.1和Python3.7(在项目解释器中)，我添加了Pyspark 2.4.2 当我运行以下代码(创建Spark DataFrame)时，我得到错误 java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST .... Exception: Java gateway process exited before sending its port number 从其他SO问题来看，似乎与版本不匹配有关，问题是如何解决这个问题我的$SPARK_HOME指

浏览 0提问于2019-05-08得票数 0

1回答

将Python库添加到远程群集计算机？

、、、

我正在尝试在一台远程机器上运行Python脚本，该机器是Spark集群的节点。除了我自己的一个小主文件夹之外，我在这台机器上没有任何权限，但是要运行我的脚本，我需要两个库(networkx和shapely)。因为我的问题只与导入有关，所以我目前正在尝试运行一个基本的wordcount脚本，但是导入我的最终项目所需的库。 from pyspark import SparkConf from pyspark import SparkContext def calculate(sc): text_file = sc.textFile("nevergonnagive.txt"

浏览 2提问于2019-11-29得票数 1

1回答

pyspark无法创建包含1000000+行的数据帧

、、

我有一个大小约38MB的文件，有1017210行和10列。我在64位windows操作系统和8 GB RAM的独立模式下使用spark。我正在尝试将csv读取到pyspark dataframe中。首先，我将数据加载为： trainRaw = sc.textFile("D:/Rossmann/train/train.csv").map(lambda line:line.split(",")) 然后，我尝试将数据帧读取为： trainRaw_df = trainRaw.toDF(["Store","DayOfWeek"

浏览 2提问于2016-08-17得票数 0

1回答

如何从azure synapse表到spark databricks处理varchar not null列中的空格

、、、

当我从synapse数据库中读取spark (使用azure databricks)中的表时，我遇到了一个问题。该表的定义如下： CREATE TABLE A ( [ID] [int] NOT NULL, [Value] [int] NOT NULL, [Description] [nvarchar](30) NOT NULL, ) 字段Description可以为空(即"")，也可以包含空格。在synapse中，我对这个字段没有任何问题，当我使用spark将其放入数据帧中读取表格时也是如此。当我编写像df.show()或df.count()

浏览 59提问于2020-10-01得票数 0

9回答

把CSV带到Spark dataframe

、

我在Spark上使用python，并希望将csv转换为dataframe。 Spark的奇怪地没有提供CSV作为源的解释。我已经找到了，但是我对文档的两个部分有问题： "This package can be added to Spark using the --jars command line option. For example, to include it when starting the spark shell: $ bin/spark-shell --packages com.databricks:spark-csv_2.10:1.0.3"，我真的需要增加

浏览 6提问于2015-04-29得票数 20

回答已采纳

1回答

无法将RDD转换为DataFrame (RDD有数百万行)

、、、

我正在使用ApacheSpark1.6.2 我有一个.csv数据，它包含大约800万行，我想将它转换为DataFrame 但是，我必须首先将它转换为RDD来进行映射，以获得我想要的数据(列)。映射RDD很好，但是当涉及到将RDD转换为DataFrame时，火花抛出一个错误。 Traceback (most recent call last): File "C:/Users/Dzaky/Project/TJ-source/source/201512/final1.py", line 38, in <module> result_iso = input_i

浏览 3提问于2017-01-14得票数 4

回答已采纳

2回答

如何将AWS EMR笔记本连接到Oracle数据库？

、、、

在CLI中，我移动到hadoop目录(在EMR中)并下载了ojdbc.jar文件。我试着使用下面的shell命令连接Oracle DB： pyspark \ --jars "/home/hadoop/ojdbc6.jar" \ --master yarn-client \ --num-executors 5 \ --driver-memory 14g \ --executor-memory 14g \ df = spark.read \ .format("jdbc") \ .option("url", &

浏览 1提问于2020-08-27得票数 1

回答已采纳

1回答

如何在linux终端上运行spark scala程序？

、、、、

我用scala写了一个spark程序。现在我想在终端中运行我写的脚本。在pyspark中，我对python文件使用spark-submit。现在，我想对我的scala程序执行同样的操作。我不想使用Intellij或用spark-shell编写我的程序。我只想在编辑器中编写代码，并在终端中使用命令来运行它。这有可能吗？提前谢谢你

浏览 16提问于2018-08-17得票数 0

回答已采纳