腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
如何在
Pyspark
中使用Scala类
、
、
、
、
我已经搜索了一段时间了,如果有任何方法在
Pyspark
中使用一个
Pyspark
类,我还没有找到任何关于这个主题
的
文档或指南。假设我在Scala
中
创建了一个简单
的
类,它使用了一些apache-spark库,如下所示: def exe():
DataFrame
= { import sqlContext.impli
浏览 3
提问于2016-03-15
得票数 29
回答已采纳
1
回答
从
pyspark
中
的
dataframe
中
提取
数据
、
我正在尝试在
pyspark
中
创建一个脚本,它将从表
中
获取最小和最大日期,将它们存储在df
中
,然后将这两个值拆分为2个变量,然后将这些变量作为时间范围放在另一个查询
中
。我
的
问题是dates是这样
的
数据
帧 +--------+--------++--------+--------++--------+--------+ 我只需要maxDate和minDate
的</e
浏览 212
提问于2021-07-01
得票数 0
回答已采纳
1
回答
如何解析
pyspark
中
的
html文件并使用Beautifulsoup?
、
、
、
、
我遇到了一个非常困难
的
情况:我需要解析
中
的
一堆html文件,但是我仍然希望使用BeautifulSoup来解析html文件。目前
的
困境是: 如果我将这些html文件保存在本地,并使用BeautifulSoup来解析html文件,则不会使用
pyspa
浏览 0
提问于2017-10-23
得票数 2
2
回答
如何检查一个实例是否在
Pyspark
的
dataframe
中
?
、
、
、
、
我有一个
从
dataframe
df1
中
提取
的
实例,我想检查该实例是否在
Pyspark
的
另一个
dataframe
df2
中
。有没有办法去面对它?------++------+------+------++------+------+------+
数据
帧2 | 'C
浏览 0
提问于2017-09-04
得票数 1
1
回答
如何
从
pyspark
中
的
spark
dataframe
中
提取
特定值?
、
、
我需要使用sql查询
从
pyspark
中
提取
计数。count在spark
dataframe
中
,我想使用计数值在if条件中使用,但不能
提取
该值。如何
从
spark
dataframe
中
提取
int值 query = "select count(*) as count from abc where FLAG= 'C' " counter =
浏览 99
提问于2021-08-03
得票数 0
回答已采纳
2
回答
如何创建空
的
考拉df
、
我正在尝试使用以下命令创建空
的
考拉
DataFrame
但是我得到了以下错误我也尝试了执行命令,但发现了类似的错误 df = ks.
DataFrame
(columns=['col1
浏览 3
提问于2020-08-24
得票数 0
3
回答
从
DataFrame
中
提取
字符串
、
我希望
从
我
的
pyspark
dataframe
中
的
一列XML
数据
(字符串)中
提取
一个字符串。我希望为每个客户
提取
ProductName
的
价值。以下是
数据
的
示例: A, <XmlData ProductName="123">....</XmlData> 我想将我
的
数
浏览 3
提问于2020-06-18
得票数 0
1
回答
将
数据
从
Pyspark
Dataframe
导出到字典或列表
中
,以便进一步处理Python
、
、
、
、
在
Pyspark
找到连接组件之后,我正在尝试
从
Pyspark
Dataframe
中
检索值,但我不知道如何像
从
列表
中
那样
提取
数据
。 下面是
从
我正在处理
的
大型
数据
集创建
的
表
的
简化版本。实际上,下表是通过使用图
的
顶点和边
的
连通性
数据
创建
的
。如果组件编号相同,则意味着节点( in )
浏览 0
提问于2019-05-06
得票数 0
1
回答
如何在
pyspark
sql
中
通过循环日期来拉取
数据
?
、
、
我有一个脚本,我正在使用spark sql将
数据
拉到一个
pyspark
DataFrame
中
。脚本如下所示: from
pyspark
import SparkContext, SparkConf, HiveContext""&
浏览 42
提问于2019-06-14
得票数 0
回答已采纳
1
回答
pyspark
错误:'
DataFrame
‘对象没有属性'map’
、
、
我正在使用
Pyspark
2.0通过读取csv来创建一个
DataFrame
对象,使用:我使用以下命令找到
数据
的
类型type(data)
pyspark
.sql.
dataframe
.
DataFrame
我正在尝试将
数据
中
的
一些列转换为LabeledPoint,以便应用分类。from
pysp
浏览 4
提问于2016-09-08
得票数 6
1
回答
FInd
数据
帧
中
的
第一个非零元素
、
、
我正在处理一个
pyspark
dataframe
,并尝试查看是否有一种方法可以
提取
spark
dataframe
中
第一个非零元素
的
索引。我自己添加了索引列,因为
pyspark
不支持它,而不是pandas。
浏览 29
提问于2021-10-08
得票数 0
2
回答
pyspark
.pandas和熊猫有什么区别?
、
开始在Databricks上使用
PySpark
,我看到我可以在pandas
的
同时导入
pyspark
.pandas。有什么不同吗?我想这不像koalas,对吧?
浏览 13
提问于2022-09-20
得票数 0
1
回答
使用配置单元元
数据
读取HDFS文件-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试读取HDFS文件(上面创建了hive表)并创建
PySpark
数据
帧。通过
PySpark
读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作
dataframe
中
的
模式)?我希望将文件位置、表名和
数据
库名作为输入传递给aa程序/函数,以便
从
配置单元元
数据
(可能是元
数据
xml)
中
获取模式/列名称,并作为
dataf
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
在
pyspark
.ml.pipeline
中
从
管道对象
中
检索转换后
的
数据
集
、
、
、
、
我是Spark ML
的
新手。我正在尝试使用Spark ML Pipeline来链接
数据
转换(将其视为ETL过程)。换句话说,我想输入一个
DataFrame
,执行一系列转换(每次向该
数据
帧添加一列),并输出转换后
的
DataFrame
。我研究了Python
中
的
Pipeline文档和代码,但我不知道如何将转换后
的
数据
集
从
Pipeline中
提取
出来。请参见以下示例(
从
文档
浏览 0
提问于2018-04-11
得票数 1
2
回答
将
数据
保存到HDFS
的
格式是什么?
、
、
、
创建
DataFrame
后,我可以将其保存为avro、csv或拼板格式。 在
dataframe
或rdd
中
是否有其他格式可用于在Hadoop中保存
数据
?
浏览 2
提问于2017-12-21
得票数 1
2
回答
我们是否可以在aws DMS
中
执行sql查询
、
、
、
、
我们是否可以在DMS任务
中
执行sql查询,以便它只获取所需
的
数据
,而不是整个
数据
库。如果不可能,那么使用哪种亚马逊网络服务来
从
本地
数据
源获取基于查询
的
数据
到亚马逊网络服务S3。
浏览 5
提问于2019-03-09
得票数 0
1
回答
Zeppelin: Scala
Dataframe
to python
、
、
、
如果我有一个带有
DataFrame
的
Scala段落,我可以在python中分享和使用它吗?(据我所知,
pyspark
使用)Scala段落:z.put("xtable", x )%
pyspark
g = g.add_legend()Traceback (most recent call last): File "/tmp/z
浏览 8
提问于2016-03-01
得票数 14
回答已采纳
2
回答
在熊猫(python)
中
,能不能将星星之火(scala)转换成
数据
(Python)
、
、
、
Dataframe
是使用scala创建
的
。spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) ) 我想把这个转换成Pandas
Dataframe
PySpark
提供了.toPandas()来将火花
数据
转换成熊猫,但是scala(我可以找到)并没有对应
的
数据
。
浏览 1
提问于2020-04-05
得票数 0
回答已采纳
1
回答
如何以编程方式将Kafka主题加载和流到
PySpark
数据
、
、
、
卡夫卡有许多读/写火花
数据
的
方法。我试着阅读来自卡夫卡主题
的
信息,并从中创建一个
数据
框架。可以
从
主题中
提取
消息,但无法将其转换为
数据
文件。任何建议都会有帮助。import
pyspark
from
pyspark
.context import SparkContext print(data)
浏览 1
提问于2020-06-12
得票数 1
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持
数据
作为输入。
、
、
、
我试图使用
pyspark
.pandas API在
数据
库上构造
数据
的
共生矩阵。该代码在熊猫
中
运行良好,但在使用
pyspark
.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。
pyspark
.pandas.
DataFrame
.dot() 以串联作为输入。我尝试使用
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券