腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Pyspark
从
REST
API
获取
数据
到
Spark
Dataframe
apache-spark
、
pyspark
我正在构建一个
数据
管道,它
使用
json格式的RESTApi
数据
并推送到
Spark
Dataframe
。attribute 'jsonRDD' 代码: from
pyspark
import SparkConf,SparkContextfrom
pyspark
import SQLContext import
浏览 27
提问于2020-06-24
得票数 2
回答已采纳
2
回答
如何生产熊猫
数据
行以激发
数据
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
、
user-defined-functions
嗨,我正在进行转换,我已经创建了some_function(iter)生成器
到
yield Row(id=index,
api
=row['
api
'], A=row['A'], B=row['B'],以生成
从
熊猫
数据
格式
到
rdd的转换行,并激发
数据
格式。(我必须
使用
熊猫来转换
数据
,因为有大量的遗留代码)respond_sdf.sho
浏览 5
提问于2020-12-22
得票数 2
回答已采纳
1
回答
从
rest
api
到
pyspark
dataframe
的嵌套json
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
data-pipeline
我正在尝试创建一个
数据
管道,其中我
从
REST
API
请求
数据
。输出是一个嵌套的json文件,这很棒。我想将json文件读入
pyspark
dataframe
。当我将文件保存在本地并
使用
以下代码时,这可以很好地工作: from
pyspark
.sql import * .bui
浏览 24
提问于2021-07-07
得票数 4
回答已采纳
2
回答
从
pyspark
中的列表中提取列
dataframe
、
apache-spark
、
pyspark
、
apache-spark-sql
我一直在尝试
从
列表中提取列,但无法想象如何做到这一点。我对
spark
来说还是个新手。在
Spark
2.4.3上运行
pyspark
。| a | 0 | None | "{ }"| | c | 0 | None | "{ }"| 我读入了我的
数据
帧
浏览 53
提问于2020-12-18
得票数 1
回答已采纳
6
回答
如何在
PySpark
中找到
DataFrame
的大小或形状?
python
、
dataframe
、
pyspark
我正在尝试在
PySpark
中找出
DataFrame
的大小/形状。我看不到有一个函数可以做到这一点。data.shape()
PySpark
中有没有类似的函数?
浏览 482
提问于2016-09-23
得票数 118
2
回答
在熊猫(python)中,能不能将星星之火(scala)转换成
数据
(Python)
pandas
、
scala
、
dataframe
、
apache-spark
Dataframe
是
使用
scala创建的。val someDF =
spark
.createDataFrame(
spark
.sparkContext.parallelize(someData), StructType(someSchema) )
PySpark
提供了.toPandas()来将火花
数据
转换成熊猫,但是scala(我可以找到)并没有对应的
数据
。
浏览 1
提问于2020-04-05
得票数 0
回答已采纳
2
回答
如何加载一个20 in的json文件来读入pandas?
json
、
pandas
、
lazy-loading
、
large-files
例如,一次1 db,然后将其转储
到
SQLite或neo4j
数据
库中以分析
数据
。任何关于这方面的想法都会非常感谢。
浏览 17
提问于2021-01-05
得票数 0
1
回答
如何在条件下更改考拉
数据
中的值
pandas
、
pyspark
、
spark-koalas
我
使用
考拉,我想根据条件改变列的值。/
pyspark
/sql/
dataframe
.py in collect(self) 595 with SCCallSiteSync(selfTraceback (most recent call last): File "/opt/
spark
/python/lib/
pyspark
.z
浏览 17
提问于2020-11-27
得票数 1
回答已采纳
1
回答
Spark
dataframe
访问Kafka源后失去流媒体能力
apache-spark
、
pyspark
、
apache-kafka
、
apache-spark-sql
、
spark-streaming
我
使用
Spark
2.4.3和Kafka 2.3.0。我想用
从
Kafka
到
Spark
的
数据
做
Spark
结构化流媒体。一般来说,它可以在测试模式下工作,但由于我必须对
数据
进行一些处理(并且不知道另一种方法),
Spark
数据
帧不再具有流式传输功能。 #!session
spark
= SparkSession.builder.appName("streamer").getOrCrea
浏览 22
提问于2019-09-10
得票数 0
回答已采纳
2
回答
如何在
Pyspark
中
使用
Scala类
python
、
scala
、
apache-spark
、
pyspark
、
apache-spark-sql
我已经搜索了一段时间了,如果有任何方法在
Pyspark
中
使用
一个
Pyspark
类,我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类,它
使用
了一些apache-
spark
库,如下所示: def exe():
DataFrame
= { import sqlContext.impli
浏览 3
提问于2016-03-15
得票数 29
回答已采纳
2
回答
如何
使用
Spark
上下文?
python
、
apache-spark
、
pyspark
、
jupyter-notebook
、
jupyter
我将值赋值为sc =
pyspark
.SparkContext()。它在jupyter笔记本上运行了很长时间,没有响应,因为出现了星号,并且没有显示任何错误。我试过sc = SparkContext()import ossc =
pyspark
.SparkContext() # At this part it don't respond from
pyspark
.sql i
浏览 1
提问于2019-05-29
得票数 0
1
回答
在
pyspark
数据
帧的
数据
类型中进行不同的计数
pyspark
、
pyspark-dataframes
我需要一个函数来在pypspark
dataframe
中
获取
类似以下内容: 变量类型: 数字:4分类:4日期:1
浏览 18
提问于2019-10-17
得票数 0
1
回答
ImportError:没有名为scipy.stats._continuous_distns的模块
apache-spark
、
pyspark
我有一个火花作业,它最后
使用
saveAsTable将
数据
写入
到
内部表w/ a给定的名称中。
dataframe
是
使用
不同的步骤创建的,其中一个步骤是在one中
使用
" beta“方法,其中我通过=>
从
scipy.stats导入beta导入它。Lost task 14.3 in stage 7.0 (TID 518, name-w-3.c.somenames.internal, executor 23): org.apache.
spar
浏览 1
提问于2019-11-19
得票数 1
回答已采纳
1
回答
将列表列表转换为
pyspark
dataframe
?
python
、
pyspark
| 3 | C | cc |我本质上是在寻找相当于: df = pd.
DataFrame
浏览 5
提问于2022-05-24
得票数 0
回答已采纳
1
回答
数据
库中的
DataFrame
.show()抛出错误
python
、
pyspark
、
azure-databricks
、
azure-sqldw
、
azure-synapse
我正在尝试
使用
Azure
数据
库
从
Azure
数据
仓库
获取
数据
。df =
spark
.read \ .option("url", sqlDwNew)
浏览 7
提问于2020-08-11
得票数 0
回答已采纳
1
回答
NotImplementedError在Apache中调用pandas_profiling.ProfileReport.to_widgets()时
python
、
python-3.x
、
pandas
、
apache-zeppelin
、
pandas-profiling
我试图
使用
pandas_profiling包自动描述Apaceh内部的一些
数据
帧。我正在运行的代码是:print(sys.version_info) print("numpy: ", np.__version__) df =
spark
.sql("SELECT * FROM database.tablelocal/
浏览 3
提问于2022-09-08
得票数 3
回答已采纳
2
回答
pyspark
.pandas和熊猫有什么区别?
pandas
、
pyspark
开始在Databricks上
使用
PySpark
,我看到我可以在pandas的同时导入
pyspark
.pandas。有什么不同吗?我想这不像koalas,对吧?
浏览 13
提问于2022-09-20
得票数 0
0
回答
从
pyspark
数据
帧创建Numpy矩阵
numpy
、
pyspark
、
apache-spark-sql
、
spark-dataframe
、
pyspark-sql
我有一个
pyspark
dataframe
child,它的列如下:80 70我正在尝试
使用
IndexedRowMatrix将其转换为numpy矩阵,如下所示我希望避免转换为pandas
dataframe
来
获取
矩阵。错误::fail
浏览 0
提问于2017-11-29
得票数 2
回答已采纳
1
回答
如何使延迟加载连接到
REST
apache-spark
、
apache-spark-sql
、
pyspark-sql
我很高兴,
Spark
允许我建立
到
数据
库表的JDBC连接,然后在上面构建转换,直到触发评估为止。我也想用
REST
连接来做同样的事情。理论上,这将提供一种在逻辑视图中集成DB和
API
信息的方法。是否有可能将
Spark
绑定
到
自定义函数,其中函数
使用
惰性计算生成的参数调用
API
?下面是一些要
使用
的
pySpark
代码:findspark.in
浏览 0
提问于2018-11-29
得票数 2
回答已采纳
2
回答
如何删除星火表列中的空白
python
、
apache-spark
、
pyspark
、
databricks
、
sparktable
我
使用
的是
spark
表,而不是
dataframe
或SQL表(但如果需要,我可以
使用
dataframe
或SQL表)。下面是我的星火表的生成方式:cols = dataset.columns+----------+----TORONTO | 4| 0| +----------+-------------+-------+--------------------+-----
浏览 6
提问于2017-12-03
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySaprk之DataFrame
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
遇见YI算法之初识Pyspark(二)
如何在CDH集群上部署Python3运行环境及运行Python作业
Python开源数据分析工具TOP 3!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券