腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
从
pyspark
数据
帧
列
创建
列表
时
,
flatMap
不会
保留
顺序
、
、
、
、
我有一个
PySpark
数据
帧
df:|ceil_temp| test2|| 1|[6469640, 6531963]|我最终想在这个
数据
框中添加一个新
列
将ceil_temp和test2提取为
列表
: m =df.select
浏览 9
提问于2017-08-11
得票数 0
1
回答
使用spark将
数据
插入配置单元表的问题
、
、
、
目前我正在开发Spark版本2.1.0,作为我的
数据
摄取工作的一部分,我必须使用ingest方法将
数据
摄取到hive表中。但是Spark 2.1版本有一个bug,当插入
数据
到hive表中
时
,insertinto方法
不会
保持
列
顺序
。我已经尝试在append模式下使用saveAsTable方法,但它
不会
起作用,因为在
数据
摄取之前,我首先使用正确的
数据
类型手动
创建
表。我尝试
从
现有的hiv
浏览 15
提问于2019-02-26
得票数 0
2
回答
迭代和计算
列
的更有效的方法
、
我有一个非常宽的
数据
帧
> 10,000
列
,我需要计算每个
列
中空值的百分比。
浏览 0
提问于2017-09-24
得票数 1
1
回答
如果包含字符串
列表
,则过滤
pyspark
dataframe
、
假设我们有一个
pyspark
数据
帧
,其中一
列
(column_a)包含一些字符串值,还有一个字符串
列表
(list_a)。
数据
帧
:some_string | 10third_string | 30['string我想过滤这个
数据
帧
,只有当column_a的值包含list_a的项目之一
时
,才
浏览 0
提问于2019-10-01
得票数 5
回答已采纳
1
回答
PySpark
:
从
数据
帧
列表
创建
RDD
、
、
我无法
从
pyspark
数据
帧
列表
创建
RDD,如下所示:df = sqlContext.createDataFrame(l)df2它适用于像[1,2,3]这样的简单
列表
,但是当
列表
的元素变成一个
数据
帧
时
,它似乎失败了……请给我建议。 我有一个timeseries
数据
<e
浏览 4
提问于2017-04-10
得票数 1
1
回答
pyspark
将列名
从
列表
传递到dataframe函数,如何插值?
、
、
、
、
我
不会
使用groupBy函数,因此这不是另一个问题的重复。我只需要Dataframe中每
列
所有值的最大值、最小值、和。代码示例:from
pyspark
.sql import SQLContext +-----------+ +-----------++-----------++-----------+ 如何<e
浏览 0
提问于2018-05-24
得票数 1
2
回答
PySpark
2.2爆炸删除空行(如何实现explode_outer)?
、
、
、
我正在处理
PySpark
数据
帧
中的一些深度嵌套
数据
。当我试图将结构扁平化为行和
列
时
,我注意到当我调用withColumn
时
,如果该行在源
列
中包含null,那么该行将从我的结果
数据
帧
中删除。要使用的示例
数据
帧
: from
pyspark
.sql.functions import explode, first, col, monotonically_increasin
浏览 0
提问于2018-10-11
得票数 2
2
回答
如何使用SparkSession
从
列表
创建
数据
帧
?
、
、
我想
创建
一个具有指定名称的
列
的
pyspark
dataframe,其中包含一系列整数(这是为了提供给ALS模型的recommendForUserSubset方法)。因此,我使用range
创建
了一个整数
列表
,并找到了显示如何使用SQLContext将
列表
转换为
数据
帧
的。但是由于我使用的是SQLContext API,而不是旧的,所以我不知道如何
创建
SparkSession上下文--根据SQLContext上的,我可能不需要这样做:“<e
浏览 1
提问于2018-03-21
得票数 2
2
回答
在pandas dataframe中,当列名通过number重复
时
,如何将
列
转换为行?
、
我有一个
数据
帧
列名,如下所示我想像这样将
列
旋转到行 <code>A1</code>
浏览 14
提问于2019-12-03
得票数 0
1
回答
PySpark
动态连接条件
、
、
、
我有PK
列
的
列表
。我在存储主键,因为每个表的主键数可能会发生变化。我想根据pk_list中的
列
连接两个
数据
帧
。当我运行代码
时
,/yarn/usercache
浏览 0
提问于2018-12-07
得票数 2
2
回答
Python Pandas
从
dataframe中提取
列
并删除
、
、
、
它包含一些我想提取的
列
,它们的标题在continuous_feats中列出,然后我想对它们进行规范化(我目前正在循环中这样做),最后我想把它们转换成一个numpy数组。我不想复制任何东西。对象"data“不应该包含这些
列
中的任何一
列
。 如果有更快的选择,我洗耳恭听。
浏览 2
提问于2020-03-03
得票数 0
1
回答
如何在R中连接多个
数据
帧
,但排除某些
列
?
、
、
、
我总共有12个
数据
帧
,它们的行数和
列
数各不相同。我想通过“id”将所有这些
数据
帧
合并在一起。所有这些
数据
帧
在
列
1中具有'id‘,它在所有
数据
帧
中应该是相似的,但不是相同的。我感兴趣并希望
保留
的12个
数据
帧
中的所有最后一
列
。 我希望我的最终
数据
帧
的id在第一
列
,然后是其他
数据<
浏览 14
提问于2021-11-11
得票数 0
回答已采纳
1
回答
Groupby和collect_list基于
PySpark
中的另一
列
维护
顺序
、
我有一个这样的
PySpark
数据
帧
, +----------+------------+------------+------------+ | Name | dateCol1 | dateCol2例如,我希望确保对于dateCol1 == '2018-01-11'和dateCol2 == '2018-01-20',收集到list
时
将始终获得[user1, user2] (基于dateCol3的
顺序
数据
帧
所需的输出是
浏览 45
提问于2020-01-17
得票数 0
回答已采纳
1
回答
使用
pyspark
从
JSON
数据
生成Hive表
、
、
、
、
我想用json
数据
创建
一个扁平的hive表,它来自另一个hive表(放在一个
列
-event_ data中)。下面是json
数据
结构。我已经使用后视图
创建
了hive表,但现在我想使用
pyspark
和一些UDF来
创建
hive表。,"category":"TST","entity":"colleague"},"platform":{"name":"
浏览 0
提问于2020-05-13
得票数 0
1
回答
是否可以将单个
数据
帧
行拆分为多个
数据
帧
行?
、
、
、
我对
pySpark
非常陌生,我正在尝试处理来自我可以访问的电表间隔
数据
集(csv)的一些仪表
数据
。我有一个
从
CSV导入的电表
数据
创建
的dataframe schema,如下所示: |-- _c0: string (nullable = true)(i.e.我认为我想
浏览 0
提问于2020-10-27
得票数 0
2
回答
在使用pandas.get_dummies进行一次热编码
时
保留
列
顺序
、
、
在Pandas
数据
帧
中使用哪一种最佳/最Pythonic的方法来实现一种热编码分类特性,同时保持
从
其中提取类别(新列名)的
列
的原始
顺序
?例如,如果
数据
框架(Df0)中有三
列
:"Col_continuous“、"Col_categorical”、"Labels",则使用新的
数据
浏览 1
提问于2019-04-04
得票数 4
0
回答
行号的配置单元查询
、
、
、
我在
pyspark
上工作,需要编写一个
从
hive表中读取
数据
并返回包含所有
列
和行号的
pyspark
数据
帧
的查询。这是我尝试过的:这个查询在hive中运行得很好,但是当我
从
pyspark
脚本运行它
时
,它抛出了以下错误: Window function row_number() r
浏览 2
提问于2017-12-06
得票数 0
1
回答
转换值并计算stddev
、
、
我有一个
数据
框架,比如:|A | B|| 1| 2|| 300| 4| 我想将其转换为每个A的1和每个B的0的
列表
,
从
它们
创建
一个
列表
,计算它们的标准差,并将其作为
列
C添加到
数据
帧
中。在
pyspark
中这是可能的吗?
浏览 12
提问于2018-03-03
得票数 0
回答已采纳
3
回答
PySpark
isin函数
、
我正在使用
PySpark
将我的遗留Python代码转换为Spark。我希望获得一个等同于以下内容的
PySpark
:actdataall和orddata都是Spark
数据
帧
。
浏览 2
提问于2017-06-09
得票数 8
1
回答
将json.dumps转换为Python
数据
帧
、
、
、
我正在使用IBM Watson的Natural Language Understanding API。我使用API文档中的以下代码来返回存储在Dataframe中的耐克推文的情感分析: from watson_developer_cloud import NaturalLanguageUnderstandingV1 import Features, EntitiesOptions, KeywordsOptions naturalLa
浏览 0
提问于2018-12-09
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
一个Python大数据处理利器:PySpark入门指南
一文读懂PySpark数据框
一文读懂 PySpark 数据框
软件测试笔记|Python编程基础|Pandas 知识精要
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券