使用Pyspark从REST API获取数据到Spark Dataframe

文章/答案/技术大牛

发布

1回答

apache-spark、pyspark

我正在构建一个数据管道，它使用json格式的RESTApi数据并推送到Spark Dataframe。attribute 'jsonRDD' 代码： from pyspark import SparkConf,SparkContextfrom pyspark import SQLContext import

浏览 27提问于2020-06-24得票数 2

回答已采纳

2回答

如何生产熊猫数据行以激发数据

pandas、apache-spark、pyspark、apache-spark-sql、user-defined-functions

嗨，我正在进行转换，我已经创建了some_function(iter)生成器到yield Row(id=index, api=row['api'], A=row['A'], B=row['B']，以生成从熊猫数据格式到rdd的转换行，并激发数据格式。(我必须使用熊猫来转换数据，因为有大量的遗留代码)respond_sdf.sho

浏览 5提问于2020-12-22得票数 2

回答已采纳

1回答

从rest api到pyspark dataframe的嵌套json

python、apache-spark、pyspark、apache-spark-sql、data-pipeline

我正在尝试创建一个数据管道，其中我从REST API请求数据。输出是一个嵌套的json文件，这很棒。我想将json文件读入pyspark dataframe。当我将文件保存在本地并使用以下代码时，这可以很好地工作： from pyspark.sql import * .bui

浏览 24提问于2021-07-07得票数 4

回答已采纳

2回答

从pyspark中的列表中提取列

dataframe、apache-spark、pyspark、apache-spark-sql

我一直在尝试从列表中提取列，但无法想象如何做到这一点。我对spark来说还是个新手。在Spark 2.4.3上运行pyspark。| a | 0 | None | "{ }"| | c | 0 | None | "{ }"| 我读入了我的数据帧

浏览 53提问于2020-12-18得票数 1

回答已采纳

6回答

如何在PySpark中找到DataFrame的大小或形状？

python、dataframe、pyspark

我正在尝试在PySpark中找出DataFrame的大小/形状。我看不到有一个函数可以做到这一点。data.shape() PySpark中有没有类似的函数？

浏览 482提问于2016-09-23得票数 118

2回答

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

pandas、scala、dataframe、apache-spark

Dataframe是使用scala创建的。val someDF = spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) )PySpark提供了.toPandas()来将火花数据转换成熊猫，但是scala(我可以找到)并没有对应的数据。

浏览 1提问于2020-04-05得票数 0

回答已采纳

2回答

如何加载一个20 in的json文件来读入pandas？

json、pandas、lazy-loading、large-files

例如，一次1 db，然后将其转储到SQLite或neo4j数据库中以分析数据。任何关于这方面的想法都会非常感谢。

浏览 17提问于2021-01-05得票数 0

1回答

如何在条件下更改考拉数据中的值

pandas、pyspark、spark-koalas

我使用考拉，我想根据条件改变列的值。/pyspark/sql/dataframe.py in collect(self) 595 with SCCallSiteSync(selfTraceback (most recent call last): File "/opt/spark/python/lib/pyspark.z

浏览 17提问于2020-11-27得票数 1

回答已采纳

1回答

Spark dataframe访问Kafka源后失去流媒体能力

apache-spark、pyspark、apache-kafka、apache-spark-sql、spark-streaming

我使用Spark 2.4.3和Kafka 2.3.0。我想用从Kafka到Spark的数据做Spark结构化流媒体。一般来说，它可以在测试模式下工作，但由于我必须对数据进行一些处理(并且不知道另一种方法)，Spark数据帧不再具有流式传输功能。 #!session spark = SparkSession.builder.appName("streamer").getOrCrea

浏览 22提问于2019-09-10得票数 0

回答已采纳

2回答

如何在Pyspark中使用Scala类

python、scala、apache-spark、pyspark、apache-spark-sql

我已经搜索了一段时间了，如果有任何方法在Pyspark中使用一个Pyspark类，我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类，它使用了一些apache-spark库，如下所示： def exe(): DataFrame = { import sqlContext.impli

浏览 3提问于2016-03-15得票数 29

回答已采纳

2回答

如何使用Spark上下文？

python、apache-spark、pyspark、jupyter-notebook、jupyter

我将值赋值为sc = pyspark.SparkContext()。它在jupyter笔记本上运行了很长时间，没有响应，因为出现了星号，并且没有显示任何错误。我试过sc = SparkContext()import ossc = pyspark.SparkContext() # At this part it don't respond from pyspark.sql i

浏览 1提问于2019-05-29得票数 0

1回答

在pyspark数据帧的数据类型中进行不同的计数

pyspark、pyspark-dataframes

我需要一个函数来在pypspark dataframe中获取类似以下内容：变量类型：数字:4分类:4日期:1

浏览 18提问于2019-10-17得票数 0

1回答

ImportError:没有名为scipy.stats._continuous_distns的模块

apache-spark、pyspark

我有一个火花作业，它最后使用saveAsTable将数据写入到内部表w/ a给定的名称中。dataframe是使用不同的步骤创建的，其中一个步骤是在one中使用" beta“方法，其中我通过=>从scipy.stats导入beta导入它。Lost task 14.3 in stage 7.0 (TID 518, name-w-3.c.somenames.internal, executor 23): org.apache.spar

浏览 1提问于2019-11-19得票数 1

回答已采纳

1回答

将列表列表转换为pyspark* dataframe？*

python、pyspark

| 3 | C | cc |我本质上是在寻找相当于： df = pd.DataFrame

浏览 5提问于2022-05-24得票数 0

回答已采纳

1回答

数据库中的DataFrame.show()抛出错误

python、pyspark、azure-databricks、azure-sqldw、azure-synapse

我正在尝试使用Azure数据库从Azure数据仓库获取数据。df = spark.read \ .option("url", sqlDwNew)

浏览 7提问于2020-08-11得票数 0

回答已采纳

1回答

NotImplementedError在Apache中调用pandas_profiling.ProfileReport.to_widgets()时

python、python-3.x、pandas、apache-zeppelin、pandas-profiling

我试图使用pandas_profiling包自动描述Apaceh内部的一些数据帧。我正在运行的代码是：print(sys.version_info) print("numpy: ", np.__version__) df = spark.sql("SELECT * FROM database.tablelocal/

浏览 3提问于2022-09-08得票数 3

回答已采纳

2回答

pyspark.pandas和熊猫有什么区别？

pandas、pyspark

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

0回答

从pyspark数据帧创建Numpy矩阵

numpy、pyspark、apache-spark-sql、spark-dataframe、pyspark-sql

我有一个pyspark dataframe child，它的列如下：80 70我正在尝试使用IndexedRowMatrix将其转换为numpy矩阵，如下所示我希望避免转换为pandas dataframe来获取矩阵。错误：:fail

浏览 0提问于2017-11-29得票数 2

回答已采纳

1回答

如何使延迟加载连接到REST

apache-spark、apache-spark-sql、pyspark-sql

我很高兴，Spark允许我建立到数据库表的JDBC连接，然后在上面构建转换，直到触发评估为止。我也想用REST连接来做同样的事情。理论上，这将提供一种在逻辑视图中集成DB和API信息的方法。是否有可能将Spark绑定到自定义函数，其中函数使用惰性计算生成的参数调用API？下面是一些要使用的pySpark代码：findspark.in

浏览 0提问于2018-11-29得票数 2

回答已采纳

2回答

如何删除星火表列中的空白

python、apache-spark、pyspark、databricks、sparktable

我使用的是spark表，而不是dataframe或SQL表(但如果需要，我可以使用dataframe或SQL表)。下面是我的星火表的生成方式：cols = dataset.columns+----------+----TORONTO | 4| 0| +----------+-------------+-------+--------------------+-----

浏览 6提问于2017-12-03得票数 2

点击加载更多