腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
pyspark
在
dataframe
的
模式
中
进行
搜索
、
、
、
我有一组数据帧,dfs,具有不同
的
模式
,例如: root |-- b_cd: string例如,我想检查其中一列(这里
在
d_info列下)
中
是否给出了"oid“。如何在
模式
中
搜索
一组数据帧并区分它们。
Pyspark
或Scala建议都很有帮助。谢谢
浏览 11
提问于2019-10-11
得票数 1
回答已采纳
1
回答
HiveContext createDataFrame不工作于
pySpark
(jupyter)
、
、
、
、
我正在
使用
木星笔记本对
pySpark
进行
分析。我
的
代码最初
使用
SQLContext(sc),= sqlContext构建数据格式,但现在我切换到了HiveContext,因为我将
使用
窗口函数。我
的
问题是,现在我
在
尝试创建
dataframe
时得到了一个Java错误:from
pyspark
.sql import SQLContext from
pyspark
浏览 3
提问于2016-07-13
得票数 3
回答已采纳
1
回答
使用
PySpark
实现MongoDB到Elasticsearch
、
、
我想
使用
PySpark
将我
的
MongoDB集合集成到Elasticsearch
中
。我有MongoDB
的
连接字符串,但我不知道如何构造代码结构或指定一些参数。有人能给我创建这个任务
的
代码示例吗?
浏览 20
提问于2021-11-10
得票数 0
1
回答
在
应用pandas udf: IndexError后不能
使用
.toPandas()或.collect()
、
、
、
我正在
使用
pandasUDF将标准
的
ML python库应用于
pyspark
DataFrame
。
在
定义了
模式
并
进行
了预测之后,我得到了
pyspark
DF作为输出。现在,我想用这个预测数据帧做一些事情,例如,我尝试对列"weekly_forecast_1“
中
的
所有值
进行
求和。当我应用.collect()或.toPandas()方法时,
在
.fit()
中
得
浏览 33
提问于2020-11-24
得票数 0
1
回答
使用
套接字
的
火花结构化流,设置
模式
,
在
控制台中显示
DATAFRAME
、
、
、
如何在
DataFrame
中
为流
PySpark
设置架构。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functions\ .getOrCreate() # Create
DataFrame
representi
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
1
回答
将多个
PySpark
DataFrames与MergeSchema合并
、
、
我想将多个
PySpark
数据帧合并到一个
PySpark
数据帧
中
。它们都来自相同
的
模式
,但是它们可能会有所不同,因为有时会缺少一些列(例如,
模式
通常包含200个具有已定义数据类型
的
列,其中
dataFrame
A有120列,
dataFrame
B有60列)。是否有可能在不写入和读取所有数据帧
的
情况下再次
使用
mergeSchema合并
模式
? 谢谢。
浏览 2
提问于2020-06-22
得票数 0
1
回答
使用
配置单元元数据读取HDFS文件-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试读取HDFS文件(上面创建了hive表)并创建
PySpark
数据帧。通过
PySpark
读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作
dataframe
中
的
模式
)?我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数,以便从配置单元元数据(可能是元数据xml)
中
获取
模式
/列名称,并作为
dataframe
返回。 请指教
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
声明字段类型和实际字段类型不匹配时生成空值
的
PySpark
SQLContext.createDataFrame
、
、
在
PySpark
(v1.6.2)
中
,当
使用
指定
的
模式
将RDD转换为
DataFrame
时,值类型与
模式
中
声明
的
值类型不匹配
的
字段将转换为null。from
pyspark
import SparkContextfrom
pyspark
.sql.types import Str
浏览 27
提问于2016-07-27
得票数 0
回答已采纳
7
回答
如何用Python创建示例单列星火
DataFrame
?
、
、
、
我想要创建一个示例单列
DataFrame
,但是下面的代码不起作用: ## ValueError
浏览 10
提问于2017-12-06
得票数 31
回答已采纳
1
回答
使用
Pyspark
从数组
中
读取JSON项?
、
、
、
我在从databricks
中
的
Cosmos DB读取项目时遇到了一些问题,它似乎将JSON读取为字符串值,并将数据从JSON
中
读取到列
中
。"name": "Green", "max": 1000000, } ]
在
CosmosDB
中
,JSON文档
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
1
回答
如何将所有的日期格式转换为日期列
的
时间戳?
、
、
、
我
使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期列
的
PySpark
数据帧。但是,当我尝试打印
模式
时,两列都被填充为字符串类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式
。 如何
使用
pyspark
将date列
中
的
行值转换为时间戳格式?我已经尝试了很多东西,但所有的代码都需要当前
浏览 16
提问于2020-12-30
得票数 2
1
回答
pyspark
.sql.utils.IllegalArgumentException:‘字段’features‘不存在
、
、
我正在尝试通过SparkNLP对文本数据
进行
主题建模和情感分析。我已经对数据集执行了所有预处理步骤,但在LDA
中
遇到错误。from
pyspark
.ml.linalg import Vectors get_tokenized
浏览 187
提问于2021-04-22
得票数 1
回答已采纳
2
回答
PySpark
配置单元SQL -未插入数据
、
、
、
、
我想插入一些数据,我
的
表“测试”通过一个
pySpark
脚本(火种
的
python)。我首先在HUE
的
图形界面
中
为Hive创建了一个表"animals“,感谢下面的查询:于是我买了一张新桌子。我写这个脚本是为了给它添加一个新行(1,dog):from
pyspark
import SparkConte
浏览 2
提问于2018-01-25
得票数 0
1
回答
PySpark
递归密钥
搜索
、
、
我有一个深度嵌套
的
json esque结构,我需要在所有级别(最多7)
搜索
给定
的
键,以查找所有事件。
在
0级
中
始终存在数据,我需要将这些数据与在任何级别上发现
的
search_key
的
每次发生关联起来。我尝试通过递归调用将这些数据推送并在返回时追加,但是当我将数据从标准
的
Python转移到
PySpark
RDD时,我遇到了堆和不可访问
的
类型问题。我
的
搜索
功能如下: def search
浏览 1
提问于2018-06-14
得票数 1
回答已采纳
2
回答
使用
pyspark
将数据帧移动到红移
、
我有一张红移
的
桌子1, 'aaa', 'xxx'我
在
pyspark
中有一个
dataframe
5, 'ddd', 'xyx' 现在我需要
使用
upsert
模式
将
pyspark
<e
浏览 6
提问于2018-01-09
得票数 1
2
回答
从
pyspark
中
的
列表中提取列
、
、
、
我一直
在
尝试从列表中提取列,但无法想象如何做到这一点。我对spark来说还是个新手。
在
Spark 2.4.3上运行
pyspark
。我有一个像这样组织
的
json: { "meta" : { ... }, [[ "a", 0, null, "{ }"], [ "b", 0, null, "{ }"],[ "c", 0, null, "{ }&qu
浏览 53
提问于2020-12-18
得票数 1
回答已采纳
5
回答
DataFrame
对象没有属性“col”
在
“火花:最终指南”
中
,它说: df.col("count") 但是,当我
在
包含列count
的
dataframe
上运行后
的
代码时,就会得到错误'
D
浏览 2
提问于2018-08-12
得票数 9
1
回答
如何在火花放电中
使用
导入org.apache.spark.sql.catalyst.parser.CatalystSqlParser
、
、
、
、
我们怎么才能用
在
org.apache.spark.sql.catalyst.parser.CatalystSqlParser中导入它,它在Scala
中
工作得很好,现在根据需求,我们尝试转换我们
的
项目我正在用蓝色
的
数据砖来
使用
这个图书馆。
浏览 7
提问于2022-06-09
得票数 0
1
回答
如何
使用
嵌入DSE
的
pyspark
进行
repartitionByCassandraReplica或joinWithCassandraTable?
、
、
、
如何在DSE (datastax-Entreprise4.8)
中
嵌入
pyspark
来实现repartitionByCassandraReplica或joinWithCassandraTable?
浏览 2
提问于2016-02-10
得票数 1
1
回答
DataFrame
错误: TypeError: Unary ~无法应用于布尔人
、
、
我试图
使用
pandera来验证
pyspark
数据框架
的
模式
,并在验证日期列上
的
约束时遇到一个意外
的
错误--这使得在对相同
的
熊猫数据框架应用验证时没有引发错误这一事实更加令人困惑。例如,我
使用
以下方法创建了熊猫和火花放电数据框架:from
pyspark
.sql import SparkSession spark = SparkSession.builder.appName("tes
浏览 12
提问于2022-10-18
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySaprk之DataFrame
Python开源数据分析工具TOP 3!
摆脱繁琐的步骤,使用代码在Python中轻松进行数据可视化!
大数据下Python的三款大数据分析工具
Dataiku DSS Code Recipe 介绍
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券