使用pyspark将嵌套在JSON文件中的结构读入Python中的Spark Dataframe_使Spark的结构化流中的JSON可以在python (pyspark)中作为无RDD的dataframe访问_如何使用spark dataframe(python/pyspark)跳过csv文件中不需要的标头 - 腾讯云开发者社区

pyspark、spark-csv

我正试图通过启用inferSchema来将csv文件读入火花df，但随后无法获得fv_df.columns。下面是错误消息 >>> fv_df = spark.read.option("header", "true").option("delimiter", "\t").csv('/home/h212957/FacilityView/datapoints_FV.csv', inferSchema=True) >>> fv_df.columns Traceback (most re

浏览 12提问于2017-04-26得票数 0

1回答

如何计算或管理火花放电中的流数据

python、pyspark、apache-spark-sql、spark-streaming、pyspark-dataframes

我想从流数据中计算数据，然后发送到网页。例如，：我将在流数据中计算TotalSales列的和。，但它在summary = dataStream.select('TotalSales').groupby().sum().toPandas()上出错，这是我的代码。 import os from pyspark.sql import SparkSession from pyspark.sql.types import StructType from pyspark.sql.functions import * spark = SparkSession.builder.appName

浏览 0提问于2020-06-02得票数 0

回答已采纳

1回答

加载json文件以激发数据格式

json、pyspark、pyspark-dataframes

我尝试将以下data.json文件加载到星星之火数据文件中： {"positionmessage":{"callsign": "PPH1", "name": 0.0, "mmsi": 100}} {"positionmessage":{"callsign": "PPH2", "name": 0.0, "mmsi": 200}} {"positionmessage":{"callsign": "PP

浏览 2提问于2020-05-18得票数 0

回答已采纳

1回答

为什么我得到了TypeError:不能在使用_thread.RLock时选择'_thread.RLock‘对象

python、python-3.x、apache-spark、pyspark、apache-spark-sql

我用火花来处理我的数据，就像这样： dataframe_mysql = spark.read.format('jdbc').options( url='jdbc:mysql://xxxxxxx', driver='com.mysql.cj.jdbc.Driver', dbtable='(select * from test_table where id > 100) t', user='xxxxxx'

浏览 2提问于2022-05-11得票数 0

回答已采纳

1回答

使用火花卡桑德拉连接器时，Dataframe子句不起作用

cassandra、where-clause

我们使用python spark驱动程序V3.0.0。当尝试使用dataframe加载数据时，where子句无效。然而，CQL本身确实在Datastax DevCenter中工作。代码如下所示 dataf = sqlc.read.format("org.apache.spark.sql.cassandra")\ .options(table="tran_history", keyspace="test")\ .load()\ .where("usr_id='abc' log_ts >= maxtimeuuid(

浏览 0提问于2016-03-16得票数 1

1回答

将Dataframe激发到StringType

json、apache-spark、pyspark、apache-kafka

在PySpark中，如何将Dataframe转换为普通字符串？背景：我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。 Json文件保存了代理详细信息，Spark读取这个Json输入并将值赋值给变量。这些变量为带有字符串的Dataframe类型。当我将dataframe传递给Pyspark连接细节以替换值时，我将面临问题。错误：只能将字符串(不是Dataframe)连接到字符串。 Json参数文件： { "broker": "https://at.com:8082", "t

浏览 0提问于2021-03-05得票数 0

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

azure、pyspark、apache-spark-sql、azure-synapse

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。我正在使用下面的查询读取JSON文件，但得到重复的列错误，即使没有重复的列。我可以使用其他工具和JSON验证器来读取它，也可以使用数据流，但不能在PySpark中读取。 PySpark查询如下： df = ( spark.read.option("multiline", "true") .options(encoding="UTF-8") .load( "abfss://<Container>]@<DIR>.

浏览 3提问于2021-11-25得票数 0

1回答

丢弃坏记录，只将好记录从pyspark中的json文件加载到dataframe

apache-spark、pyspark、apache-spark-sql

API生成的json文件如下所示。JSON文件的格式不正确。我们是否可以使用pyspark处理坏的记录，丢弃并只将好的行加载到dataframe中。 { "name": "PowerAmplifier", "Component": "12uF Capacitor\n1/21Resistor\n3 Inductor In Henry\PowerAmplifier\n ", "url": "https://www.onsemi.com/products/amplifiers-comparators/"

浏览 27提问于2020-01-17得票数 0

回答已采纳

2回答

如何生产熊猫数据行以激发数据

pandas、apache-spark、pyspark、apache-spark-sql、user-defined-functions

嗨，我正在进行转换，我已经创建了some_function(iter)生成器到yield Row(id=index, api=row['api'], A=row['A'], B=row['B']，以生成从熊猫数据格式到rdd的转换行，并激发数据格式。我搞错了。(我必须使用熊猫来转换数据，因为有大量的遗留代码) 输入火花DataFrame respond_sdf.show() +-------------------------------------------------------------------+ |content

浏览 5提问于2020-12-22得票数 2

回答已采纳

1回答

从Pandas DataFrame创建火花DataFrame

python、pandas、pyspark、apache-spark-sql

我正在尝试从一个简单的Pandas DataFrame构建一个火花DataFrame。这是我遵循的步骤。 import pandas as pd pandas_df = pd.DataFrame({"Letters":["X", "Y", "Z"]}) spark_df = sqlContext.createDataFrame(pandas_df) spark_df.printSchema() 直到这一点，一切都好。产出如下：根部 -字符串(nullable = true) 当我试图打印DataFrame时，问题就来了：

浏览 0提问于2019-02-14得票数 12

回答已采纳

2回答

pyspark dataframes:为什么我可以选择一些嵌套字段，而不能选择其他字段？

python-3.x、apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我正在尝试编写一些代码，使用Python 3.9.1中的pyspark (3.0.1)将JSON解嵌到Dataframe中。我有一些虚拟数据，其模式如下： data.printSchema() root |-- recordID: string (nullable = true) |-- customerDetails: struct (nullable = true) | |-- name: string (nullable = true) | |-- dob: string (nullable = true) |-- familyMembers: array (n

浏览 38提问于2021-02-05得票数 2

回答已采纳

1回答

是否有可能使用Spark与星火结构流的库？

apache-spark、pyspark、spark-streaming、johnsnowlabs-spark-nlp

我想对我从一个卡夫卡集群中获得的消息流执行tweet情绪分析，该集群反过来从Twitter v2中获取这些消息。当我尝试应用预先训练过的情感分析管道时，我会收到一条错误消息，上面写着：Exception: target must be either a spark DataFrame, a list of strings or a string，我想知道是否有办法解决这个问题。我已经检查了文档，在流数据上找不到任何东西。这是我使用的代码： import pyspark from pyspark.sql import SparkSession from pyspark.sql.functi

浏览 7提问于2022-03-23得票数 1

回答已采纳

1回答

火花放电不起作用

json、apache-spark、pyspark、rdd

我正试图在Pyspark的映射函数中解析。我感兴趣的是从第21行提取“费用”字段:481000。如果我在普通的python (即没有pyspark)中这样做，我可以用下面的方法来完成，它可以工作！ import json f=open("block_395545.json") lines = f.read() json_data = json.loads(lines) fee_data = json_data["fees"] print fee_data 但是，如果我按下面的方式将它放入映射函数中，它将不起作用： function get_tx_fee(line

浏览 1提问于2016-02-03得票数 0

回答已采纳

1回答

在Pyspark/Hive中处理更改的数据类型

python、apache-spark、pyspark、apache-spark-sql

在解析pyspark中不一致的数据类型时，我遇到了一个问题。如下面的示例文件所示，SA键总是包含一个字典，但有时它可以显示为string值。当我尝试获取列SA.SM.Name时，会得到如下所示的异常。对于SA.SM.Name列，如何将null设置为除了JSONs之外的值的pyspark/hive。有人能帮帮我吗？我试图转换成不同的数据类型，但是没有工作，或者我可能做错了什么。输入文件内容: mypath {"id":1，"SA":{"SM"：{"Name"："John"，"Email"：“Jo

浏览 6提问于2020-10-10得票数 0

4回答

如何在结构化流式传输中将数据帧转换为rdds？

apache-spark、spark-streaming

我使用pyspark流从kafka获取数据，结果是一个dataframe，当我将dataframe转换为rdd时，它出错了： Traceback (most recent call last): File "/home/docs/dp_model/dp_algo_platform/dp_algo_core/test/test.py", line 36, in <module> df = df.rdd.map(lambda x: x.value.split(" ")).toDF() File "/home/softs/spark-2.4.3-

浏览 56提问于2020-01-06得票数 3

1回答

如何将流数据从spark接收到Mongodb？

mongodb、apache-spark、pyspark

我正在使用pyspark读取Kafka的流数据，然后我想将这些数据汇到mongodb。我已经包含了所有必需的包，但是它会引发以下错误 UnsupportedOperationException:数据源com.mongodb.spark.sql.DefaultSource不支持流写入。以下链接与我的问题无关下面是完整的错误堆栈跟踪回溯(最近一次调用)：.option("com.mongodb.spark.sql.DefaultSource"，“mongodb://localhost:27017/twitter.test”中的文件“/home/b3ds/kafka-sc

浏览 4提问于2018-06-04得票数 2

2回答

有没有办法在pyspark中逐个访问数组(Struct)中的多个JSON对象

json、apache-spark、dataframe、pyspark、pyspark-sql

我对pyspark和json解析还是个新手，我被困在了某些特定的场景中。让我先解释一下我要做什么，我有一个json文件，其中有一个数据元素，这个数据元素是一个包含另外两个json对象的数组。给定的json文件如下所示 { "id": "da20d14c.92ba6", "type": "Data Transformation Node", "name": "", "topic": "", "x": 380,

浏览 142提问于2019-06-05得票数 0

回答已采纳

2回答

pyspark json读取忽略空集

python、json、apache-spark、pyspark

在Pyspark中，每当我读取一个带有空set元素的json文件时。在生成的DataFrame中会忽略整个元素。我怎样才能让spark考虑一下而不忽略它。我使用的是spark 2.4.2和Python 3.7.3 我尝试使用df.fillna('Null')。这不起作用，因为在创建DataFrame的那一刻，元素就不在那里了。 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("SimpleApp").getOrCreate() people = ['{

浏览 0提问于2019-07-19得票数 0

3回答

PySpark序列化EOFError

python、apache-spark、pyspark、apache-spark-1.6

我正在以火花DataFrame的形式读取CSV，并在其上执行机器学习操作。我一直得到一个Python序列化EOFError --知道为什么吗？我认为这可能是内存问题--即文件超出了可用内存--但大幅减少DataFrame的大小并没有防止EOF错误。下面是玩具代码和错误。 #set spark context conf = SparkConf().setMaster("local").setAppName("MyApp") sc = SparkContext(conf = conf) sqlContext = SQLContext(sc) #read in 5

浏览 5提问于2016-04-12得票数 34

1回答

Spark 2.0将json读取到数据帧中，并在关键字中使用引号-与spark 1.6的行为不同……虫子？

json、apache-spark、pyspark、spark-dataframe

不幸的是，我们不得不处理混乱的传入json数据，并且发现Spark 2.0 (pyspark)处理json键中的引号的方式有所不同。如果我们使用以下代码作为示例文件(sample.json)： {"event":"abc"} {"event":"xyz","otherdata[\"this.is.ugly\"]":"value1"} 在Spark 1.6.2中，我们可以运行以下命令并获得结果： from pyspark import SparkConf from pyspark.

浏览 0提问于2016-08-11得票数 2

1回答

将每个json对象读入Dataframe中的单个行，使用Pyspark吗？

python、python-3.x、apache-spark、pyspark、apache-spark-sql

我有下面的JSON文件 {"name":"John", "age":31, "city":"New York"} {"name":"Henry", "age":41, "city":"Boston"} {"name":"Dave", "age":26, "city":"New York"} 因此，从这一点出发，我需要将每一行json与Dataframe一起读

浏览 3提问于2020-05-13得票数 0

回答已采纳

1回答

TypeError:需要一个类似字节的对象，而不是“行”星图

python-3.x、apache-spark、pyspark

我正试图在我的DataFrame中将XML转换为JSON。我有以下几点 def xmlparse(line): return json.dumps(xmltodict.parse(line)) 我的XML_Data中的列‘DataFrame’中包含XML。 testing = t.select('XML_Data').rdd.map(xmlparse) testing.take(1)返回 An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob. : org.apache

浏览 0提问于2018-03-13得票数 0

回答已采纳

1回答

异常: Java网关进程在使用pyspark发送其端口号之前退出

python、amazon-s3、pyspark、parquet

我在一台jupyter笔记本上使用python和pyspark。我正在尝试从亚马逊网络服务的s3存储桶中读取几个拼图文件，并将它们转换为单个json文件。这就是我所拥有的： from functools import reduce from pyspark.sql import DataFrame bucket = s3.Bucket(name='mybucket') keys =[] for key in bucket.objects.all(): keys.append(key.key) print(keys[0]) from pyspark.s

浏览 3提问于2020-07-18得票数 1

1回答

使用Pyspark从REST API获取数据到Spark Dataframe

apache-spark、pyspark

我正在构建一个数据管道，它使用json格式的RESTApi数据并推送到Spark Dataframe。Spark版本: 2.4.4 但是得到的错误是 df = SQLContext.jsonRDD(rdd) AttributeError: type object 'SQLContext' has no attribute 'jsonRDD' 代码： from pyspark import SparkConf,SparkContext from pyspark.sql import SparkSession from urllib import urlopen

浏览 27提问于2020-06-24得票数 2

回答已采纳

1回答

PySpark DataFrame写入空(零字节)文件

python、apache-spark、pyspark

我正在使用Spark3.1.1版本的PySpark DataFrame API进行本地设置。在读取数据、执行一些转换等之后，我将DataFrame保存到磁盘。输出目录与part-0000*文件一起创建，输出目录中也有_SUCCESS文件。但是，我的part-0000*总是空的，即零字节。我试着用parquet和csv格式编写它，结果是一样的。在编写之前，我调用了df.show()以确保DataFrame中有数据。 ### code.py ### from pyspark.sql import SparkSession from pyspark.sql import functions as

浏览 8提问于2022-05-11得票数 1

1回答

如何在文件中执行包含一些附加内容的命令？

bash、shell

我有一个文件存储一些命令，如下所示： sudo PYSPARK_DRIVER_PYTHON=/bin/python2.7 PYSPARK_PYTHON=/bin/python2.7 SPARK_CONF_DIR=/configuration/spark2 /spark2.1/bin/spark-submit --driver-memory 2g --executor-memory 4g --num-executors 100 --jars /lib/json-serde-1.3.7-jar-with-dependencies.jar 上面的命令只有在附加了文件名(例如file.py)时才会运行

浏览 0提问于2018-04-23得票数 0

1回答

将动态IP地址转换为字符串

bash、pyspark、anaconda、ip

我需要将dynamic IP address转换为string，以便将其添加到kernel.json中的spark conf中。在这里，我的kernel.json： { "argv": [ "/opt/conda/bin/python3", "-m", "ipykernel_launcher", "-f", "{connection_file}" ], "display_name": "python",

浏览 2提问于2021-08-26得票数 0

1回答

将python数据对象保存到google存储中，从dataproc中运行的pyspark作业中保存文件。

python、pyspark、google-cloud-storage、google-cloud-dataproc

我在使用dataproc运行pyspark作业时收集度量，并且无法在google存储中持久化它们(只使用python函数，而不是使用Spark)。关键是我可以保存它们，在执行过程中，我成功地读取和修改了它们，但是当作业结束时，我的google存储文件夹中什么都没有。是否有可能持久化python对象，或者这是只可能使用py行之有效的库？编辑：我添加了一个代码片段来澄清这个问题 # Python import pandas as pd # Pyspark from pyspark.sql import SparkSession # Google storage filepath file

浏览 0提问于2018-02-08得票数 2

1回答

为S3桶编写火花数据帧字典

python-3.x、apache-spark、amazon-s3、pyspark

假设我们有一个PySpark数据字典。有办法把这本字典写到S3桶里吗？这样做的目的是读取这些PySpark数据帧，然后将它们转换为熊猫数据帧。下面是一些代码和我得到的错误： columns = ["language","users_count"] data = [("Java", "20000"), ("Python", "100000"), ("Scala", "3000")] #spark = SparkSession.builder.appName('

浏览 7提问于2021-09-24得票数 1

回答已采纳

1回答

如何修复pyspark中的"No FileSystem for scheme: gs“？

apache-spark、google-cloud-platform、pyspark、google-cloud-storage

我正在尝试将一个json文件从google bucket读取到本地spark机器上的pyspark dataframe中。代码如下： import pandas as pd import numpy as np from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession, SQLContext conf = SparkConf().setAll([('spark.executor.memory', '16g'),

浏览 218提问于2019-04-09得票数 4

回答已采纳

4回答

无法访问pyspark中的本地文件。

apache-spark、pyspark

我试图在Yarn框架上以客户端模式读取本地文件。我也无法在客户端模式下访问本地文件。 import os import pyspark.sql.functions as F from os import listdir, path from pyspark import SparkConf, SparkContext import argparse from pyspark import SparkFiles from pyspark.sql import SparkSession def main(): spark = SparkSession \ .builder \

浏览 1提问于2018-10-18得票数 1

回答已采纳

5回答

来自自定义模块的函数不是在PySpark中工作，而是在交互模式下输入时工作。

pyspark、pyspark-sql

我已经编写了一个模块，其中包含了在PySpark DataFrames上工作的函数。它们对DataFrame中的列进行转换，然后返回一个新的DataFrame。下面是代码的一个示例，缩短为只包含其中一个函数： from pyspark.sql import functions as F from pyspark.sql import types as t import pandas as pd import numpy as np metadta=pd.DataFrame(pd.read_csv("metadata.csv")) # this contains metad

浏览 6提问于2016-03-10得票数 7

回答已采纳

1回答

创建pyspark的spark context py4j java网关对象

apache-spark、pyspark、apache-spark-sql、py4j

我正在尝试将java数据帧转换为pyspark数据帧。为此，我在java进程中创建了一个数据帧(或行的数据集)，并在Java端启动了一个py4j.GatewayServer服务器进程。然后，在Python端，我创建了一个py4j.java_gateway.JavaGateway()客户机对象，并将其传递给pyspark的SparkContext构造函数，以便将其链接到已经启动的jvm进程。但是我得到了这个错误:- File: "path_to_virtual_environment/lib/site-packages/pyspark/conf.py", line 120, in

浏览 6提问于2021-03-25得票数 0

1回答

从吡火花中的多行文件读取JSON文件

python、apache-spark、pyspark、apache-spark-sql

我在学习巨蟒的火花。我有一个JSON文件如下： { "_class":"fdsfsdfsdfds", "n":"test ccorona", "fn":"ccorona", "ln":"ccorona", "un":"ccorona", "p":"line", "g":"ccorona", "l":"

浏览 4提问于2020-10-06得票数 0

回答已采纳

2回答

PySpark自定义UDF ModuleNotFoundError:没有命名的模块

python-3.x、apache-spark、pyspark

使用python3.6测试现有的代码，但是一些人不知道问题出在哪里，以前使用python2.7的udf是如何工作的。有没有人在本地或分布式环境中遇到类似的问题？类似于 Job aborted due to stage failure: Task 0 in stage 3.0 failed 1 times, most recent failure: Lost task 0.0 in stage 3.0 (TID 202, localhost, executor driver): org.apache.spark.api.python.PythonException: Traceback (mos

浏览 4提问于2020-01-15得票数 1

1回答

NoneType对象没有属性'_jvm‘错误

python、apache-spark、pyspark、apache-spark-sql

我试图使用Spark2.2在DataFrame中打印每个分区中的总元素 from pyspark.sql.functions import * from pyspark.sql import SparkSession def count_elements(splitIndex, iterator): n = sum(1 for _ in iterator) yield (splitIndex, n) spark = SparkSession.builder.appName("tmp").getOrCreate() num_parts = 3 df = spa

浏览 0提问于2018-03-25得票数 6

4回答

基于JSON文件创建DataFrame时，Spark SQL“作业中未指定输入路径”

python、json

我是Spark的初学者，我正在尝试使用PySpark创建一个基于JSON文件内容的DataFrame，遵循以下指南：但是，每当我执行此命令时(使用相对路径或绝对路径) df = sqlContext.read.json("examples/src/main/resources/people.json") 总是给我一个错误 java.io.IOException: No input paths specified in job 这些问题的原因是什么，或者是否有我遗漏的Spark配置？我使用的是Spark 1.6.1和Python 2.7.6。

浏览 0提问于2016-07-02得票数 1

3回答

在将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark数据库时json文件中的重复列抛出错误

json、apache-spark、pyspark、databricks、delta-lake

问题陈述:在升级Databricks运行时版本时，复制列在创建dataframe时抛出错误。在较低的运行时，会创建dataframe，并且由于下游不需要重复列，因此它只是在select中被排除在外。文件位置:存储在ADLS Gen2 (Azure)上的Json文件。集群模式:标准代码:我们在中阅读它，如下所示。 intermediate_df = spark.read.option("multiline","true").json(f"{path}/IN-109418_Part_1.json") json文件是嵌套的，其中一个是tags，它是

浏览 1提问于2021-11-16得票数 2

回答已采纳

1回答

PySpark:关于调用df.foreach方法的PicklingError

python、apache-spark、pyspark、pickle

我有一个代码(kafka_producer.py)，从csv >>中读取，创建Pandas dataframe >>，将熊猫的数据转换为星星之火>>调用>>方法，将消息发送给kafka。df.foreachPartition(self.send_to_kafka)正在抛出PicklingError: Could not serialize object: TypeError: can't pickle _thread.RLock objects。代码如下： def get_kafka_producer(topic): kafka

浏览 37提问于2022-05-27得票数 0

回答已采纳

1回答

从S3中将嵌套的文本文件读取到spark时出现内存错误

python、apache-spark、amazon-s3、pyspark

我正在尝试从S3中将大约一百万个压缩文本文件读入spark。每个文件的压缩大小在50 MB到80 MB之间。总共大约有6.5万亿字节的数据。不幸的是，我遇到了一个内存不足的异常，我不知道如何解决。像这样简单的东西： raw_file_list = subprocess.Popen("aws s3 ls --recursive s3://my-bucket/export/", shell=True, stdout=subprocess.PIPE).stdout.read().strip().split('\n') cleaned_names = ["s3

浏览 20提问于2016-07-26得票数 4

回答已采纳

1回答

使用模式读取固定宽度文件

python、apache-spark、pyspark、pyspark-sql

我有固定宽度的文件，如下所示 00120181120xyz12341 00220180203abc56792 00320181203pqr25483 以及相应的JSON文件，该文件指定架构： {"Column":"id","From":"1","To":"3"} {"Column":"date","From":"4","To":"8"} {"Column":"name",

浏览 0提问于2018-12-17得票数 3

回答已采纳

2回答

如何显示一个流DataFrame (AnalysisException显示失败)？

apache-spark、pyspark、apache-kafka、spark-structured-streaming

所以我在Kafka主题中有一些数据，我把这些流数据放到一个DataFrame中。我想要显示DataFrame中的数据： import os from kafka import KafkaProducer from pyspark.sql import SparkSession, DataFrame import time from datetime import datetime, timedelta os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-sql-kafka-0-1

浏览 3提问于2017-07-14得票数 5

回答已采纳

1回答

是否有一种方法可以动态创建模式信息，而不是在输出jsonfile中转义字符？

python、pyspark

当前pyspark格式的logFile，然后加载红移。分析以json格式输出的关于logFile的每一项，添加一项，并将其加载到Redshift中。但是，对于每种类型，某些项的格式是不同的。(对于同一项，先应用Shcema。)即使输出，也会输入Escape字符。有没有一种方法可以动态地创建模式信息，并且输出jsonfile没有转义字符？ -环境-- - spark 2.4.0 - python version 2.7.15 - DataFrame -- >> df.printSchema() root |-- Name: string (nullable = false) |

浏览 0提问于2018-12-28得票数 6

1回答

pyspark中的json文件中的记录已损坏，原因是作为条目为False

json、apache-spark、pyspark、apache-spark-sql、rdd

我有一个如下所示的json文件： test= {'kpiData': [{'date': '2020-06-03 10:05', 'a': 'MINIMUMINTERVAL', 'b': 0.0, 'c': True}, {'date': '2020-06-03 10:10', 'a': 'MINIMUMINTERVAL', 'b': 0.0, 'c

浏览 24提问于2021-05-10得票数 0

回答已采纳

5回答

DataFrame对象没有属性“col”

apache-spark

在“火花:最终指南”中，它说：如果需要引用特定DataFrame的列，则可以在特定的DataFrame上使用col方法。例如(在Python/Pyspark中)： df.col("count") 但是，当我在包含列count的dataframe上运行后的代码时，就会得到错误'DataFrame' object has no attribute 'col'。如果我尝试column，我会得到一个类似的错误。这本书是错的，还是我该怎么做呢？我上的是星火2.3.1。dataframe是用以下内容创建的： df = spark.read.f

浏览 2提问于2018-08-12得票数 9

2回答

冲突的PySpark存储级别默认设置？

apache-spark、pyspark

不明白为什么缓存的DFs (特别是第一个)在Spark中根据代码段显示不同的Storage Levels print(spark.version) 2.4.3 # id 3 => using default storage level for df (memory_and_disk) and unsure why storage level is not serialized since i am using pyspark df = spark.range(10) print(type(df)) df.cache().count() print(df.storageLeve

浏览 2提问于2019-07-07得票数 1

1回答

Pyspark Sql类型: Union[int，float]

pyspark、apache-spark-sql、pyspark-sql

我正在摄取一个通常是int的数据类型，但也可以是None或inf，并使用它创建一个Spark DataFrame。我试着让它成为一个LongType，PySpark抱怨说，因为inf是一个浮点型： File "/opt/spark/python/lib/pyspark.zip/pyspark/worker.py", line 177, in main process() File "/opt/spark/python/lib/pyspark.zip/pyspark/worker.py", line 172, in process ser

浏览 26提问于2020-01-22得票数 0

1回答

齐柏林飞艇/星火: org.apache.spark.SparkException:无法运行程序"/usr/bin/"：error=13，无权限

apache-spark、pyspark、apache-zeppelin

我试图在Debian 9上使用Zeppelin 0.7.2和Spark2.1.1进行基本的回归。这两个齐柏林飞艇都安装在/usr/local/这意味着/usr/local/ zeppelin /和/usr/local/火星中。齐柏林飞艇也知道正确的SPARK_HOME。首先，我加载数据： %spark.pyspark from sqlalchemy import create_engine #sql query import pandas as pd #sql query from pyspark import SparkContext #Spark DataFrame from pyspar

浏览 2提问于2017-08-16得票数 1

回答已采纳

1回答

Spark dataframe访问Kafka源后失去流媒体能力

apache-spark、pyspark、apache-kafka、apache-spark-sql、spark-streaming

我使用Spark 2.4.3和Kafka 2.3.0。我想用从Kafka到Spark的数据做Spark结构化流媒体。一般来说，它可以在测试模式下工作，但由于我必须对数据进行一些处理(并且不知道另一种方法)，Spark数据帧不再具有流式传输功能。 #!/usr/bin/env python3 from pyspark.sql import SparkSession from pyspark.sql.functions import from_json from pyspark.sql.types import StructField, StructType, StringType, Doub

浏览 22提问于2019-09-10得票数 0

回答已采纳

1回答

Spark + Python -如何设置系统环境变量？

python、apache-spark

我在spark-1.4.1上。如何设置Python的系统环境变量？例如，在R中， Sys.setenv(SPARK_HOME = "C:/Apache/spark-1.4.1") .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths())) 在Python中呢？ import os import sys from pyspark.sql import SQLContext sc = SparkContext(appName="Py

浏览 1提问于2015-08-04得票数 0