腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Apache
Spark
: dataframe中行值
列表
的
百分比
list
、
dataframe
、
pyspark
我有一个包含一组计算
列
的
Apache
Spark
数据
帧
。对于
数据
帧
中
的
每一行(大约2000行),我希望获取10
列
的
行值,并定位第11
列
相对于其他10
列
的
最接近值。我想我会把这些行值转换成一个
列表
,然后使用abs值计算来确定最接近
的
值。 但是我被困在
如何
将行值转
换为
列表
浏览 1
提问于2017-10-03
得票数 0
3
回答
PySpark:
如何
转
置
数据
帧
中
的
多个
列
apache-spark
、
pyspark
、
apache-spark-sql
、
pivot
、
transpose
我是
Spark
的
新手,需要使用PySpark或
Spark
Sql将以下输入
数据
帧
转
置为所需
的
输出df (
从
行到
列
)
的
帮助。输入
数据
帧
-......A 1 D
浏览 1
提问于2020-11-27
得票数 3
1
回答
如何
从
Spark
中
的
多
列
数据
帧
转
换为
列表
?
scala
、
list
、
apache-spark
、
null
、
apache-spark-sql
我有这个示例
数据
帧
: id | A | B | C | D 2 | 1 | 1 | 1 | 11 | {"B", "C"}3 | {"A"} 换句话说,我想创建一
浏览 19
提问于2019-03-19
得票数 0
3
回答
如何
从
多个
列表
创建pyspark dataframe
python
、
pyspark
、
apache-spark-sql
我想将两个
列表
转
换为
pyspark
数据
帧
,其中
列表
是各自
的
列
。| a| b| _3| _4|| 1| 2| 3| 4|+---+---+---+---++---+---+| 2| 3|| 4| 5|有没有一种方便
的
方法来创建这个结果
浏览 0
提问于2018-10-13
得票数 3
回答已采纳
1
回答
如何
将dataFrame转
换为
列表
列表
?
r
、
dataframe
、
sparklyr
我正在尝试使用
spark
_apply将R函数应用于
Spark
DataFrame。在我最初
的
问题中,我有一个
列表
列表
,我已经将其转
换为
R
数据
帧
,我将能够将其转
换为
Spark
DataFrame。但是在我
的
R函数
中
,我需要使用一个
列表
列表
,而我不知道
如何
从
数据
帧
中</e
浏览 10
提问于2019-07-05
得票数 2
回答已采纳
1
回答
基于
列
值高效地从宽
Spark
数据
帧
中
删除
列
scala
、
apache-spark
、
apache-spark-sql
如果我有一个只包含IP地址
的
宽
数据
帧
(200m cols),并且我想删除包含空值或格式不佳
的
IP地址
的
列
,那么在
Spark
中
执行此操作
的
最有效方法是什么?我
的
理解是
Spark
并行地执行基于行
的
处理,而不是基于
列
的
处理。因此,如果我尝试在列上应用转换,将会有大量
的
混洗。首先
转
置
数据
帧</
浏览 11
提问于2019-10-31
得票数 1
2
回答
将火花
数据
作为json
的
数组写入
python
、
json
、
apache-spark
、
pyspark
我想将我
的
写成一组JSON文件,特别是每个JSON文件数组。让我用一个简单
的
(可复制
的
)代码来解释。我们有:import pandas as pd将dataframe保存为: df.write.json('s3://path&
浏览 8
提问于2019-10-04
得票数 11
回答已采纳
3
回答
向带有时间戳和id
的
Spark
Dataframe添加行
java
、
scala
、
dataframe
、
apache-spark
我有一个名为timeDF
的
数据
帧
,它
的
模式如下: |-- Id: long (nullable = true)我想通过将两个Calendar对象c1和c2
转
换为
c2,在Timestamp
的
末尾添加一个新行。,如下所示: val t1 = new Timestamp(c1.getTimeInMil
浏览 2
提问于2021-10-27
得票数 0
2
回答
使用
spark
scala基于键值项将字符串列拆分成
多
列
scala
、
apache-spark
我有一个
数据
帧
,其中一
列
包含几个'key=value‘格式
的
信息。几乎有30个不同
的
'key=value‘可以出现在该
列
中将使用4
列
来理解( _age,_city,_sal,_tag)0 A {_age=10city=A, _sal=1000}2 C {_city=BC, ta
浏览 5
提问于2021-11-25
得票数 0
1
回答
使用
spark
将
数据
插入配置单元表
的
问题
apache-spark
、
hive
、
pyspark
、
apache-spark-sql
目前我正在开发
Spark
版本2.1.0,作为我
的
数据
摄取工作
的
一部分,我必须使用ingest方法将
数据
摄取到hive表
中
。但是
Spark
2.1版本有一个bug,当插入
数据
到hive表
中
时,insertinto方法不会保持
列
顺序。我已经尝试在append模式下使用saveAsTable方法,但它不会起作用,因为在
数据
摄取之前,我首先使用正确
的
数据
类型手动创建表。我
浏览 15
提问于2019-02-26
得票数 0
3
回答
如何
使用createDataFrame创建pyspark
数据
帧
?
pyspark
我知道这可能是一个愚蠢
的
问题。
浏览 1
提问于2018-03-12
得票数 2
回答已采纳
2
回答
以每列为关键字将PySpark
数据
帧
转
换为
JSON
apache-spark
、
pyspark
、
apache-spark-sql
、
databricks
我有一个
数据
框,我需要将其
转
储为JSON文件,但JSON文件应具有以下格式,例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE因此,每
列
应该有一个键,相应
的
值应该包含该
列
中
的
所有值
的
列表
我尝试将其转
换为
Pandas
数据
帧
,然后在将其作为JSON
转<
浏览 14
提问于2019-12-18
得票数 1
回答已采纳
1
回答
用vba实现
数据
表结构
的
转换
vba
、
excel
我正在尝试使用vba将Excel
中
现有的
数据
表(表1)转
换为
新
的
数据
表(表2)。该
数据
表示活动
列表
和相应
的
前置任务,我希望它在2
列
而不是
多
列
中
。
如何
将表%1
转
换为
表% 2?
浏览 14
提问于2017-03-14
得票数 0
回答已采纳
1
回答
在现有
数据
帧
上运行ML算法
apache-spark
我是
Spark
的
新手,我正在尝试弄清楚使用它进行
数据
科学
的
程序是什么。具体地说,我知道
如何
从
现有
数据
中
创建
数据
帧
,然后执行一些分析。 现在我正在尝试理解
如何
在
数据
帧
中
已经存在
的
数据
上运行ML算法。当我查看ML文档时,我发现dataframes是
从
Vectors (密集或稀疏)创建
的</
浏览 0
提问于2016-12-29
得票数 0
1
回答
从
ORC文件创建外部配置单元表
的
方法
apache-spark
、
hive
、
orc
、
hive-serde
用于创建表
的
查询: create external table fact_scanv_dly_stg (geo_region_cd char(2),op_cmpny_cd string)location 'hdfs:///my/location/scanv_data/'; ORC文件
的
模式详细信息(摘自DataFrame
Spark
-SQL)
浏览 28
提问于2020-04-30
得票数 0
1
回答
如何
从
Glue Dynamic Dataframe中提取列名和
数据
类型?
amazon-web-services
、
aws-glue
、
pyspark-dataframes
我正在尝试
从
Glue dynamic frame中提取列名和
数据
类型,并希望在
spark
sql中使用它们。table_name="customer_table") persons.printSchema() 输出为 根|-- cust_no: long |--名称:字符串|--地址:字符串|-- zip: long
如何
从动态框架中提取列名和
数据
类型我想使用
spark
sql
中
的
列
spark
.
浏览 17
提问于2020-09-01
得票数 1
1
回答
在Java中将CSV值转
换为
Spark
Dataframe
中
的
向量
java
、
hadoop
、
apache-spark
、
dataframe
、
vector
我有一个包含两
列
的
CSV文件id
列
是一个字符串,而feature
列
是机器学习算法ie
的
一个逗号分隔
的
特征值
列表
。"1,4,5“我基本上只需要在值上调用Vectors.parse()来获得一个向量,但我不想首先转
换为
RDD。我想把它放到
Spark
Dataframe
中
,其中
的
features
列
是一个org.apache.
spark</em
浏览 3
提问于2018-03-17
得票数 0
5
回答
如何
将dataframe
的
所有
列
转
换为
字符串
apache-spark
、
pyspark
、
apache-spark-sql
我有一个混合类型
的
数据
帧
。我正在使用
spark
.sql('select a,b,c from table')命令
从
hive表
中
读取此
数据
帧
。一些
列
是int、bigint、double,而其他
列
是string。总共有32
列
。在pyspark中有什么方法可以将
数据
框
中
的
所有
列
转
换为
字符串类型吗?
浏览 149
提问于2017-02-07
得票数 12
回答已采纳
3
回答
我可以将pandas
数据
帧
转
换为
spark
rdd吗?
pyspark
Pbm: a)读取一个本地文件到Panda dataframe
中
,比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe
中
。c)需要使用
spark
将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
1
回答
高效地将
Spark
中
的
数据
帧
发送到其他应用程序
apache-spark
、
apache-spark-sql
、
spark-dataframe
我想将
Spark
上下文中
的
数据
帧
发送到我
的
客户端应用程序。目前,我只是将
数据
帧
转
换为
内存
中
的
列表
,并通过ZMQ将该
列表
发送给客户端。有什么方法可以提高这个过程
的
速度吗?或者我应该尝试其他方式将
数据
从
Spark
传递到其他应用程序?提前谢谢。
浏览 7
提问于2016-09-13
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
肝了3天,整理了90个Pandas案例
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
AI 时代,你需要了解的数据库架构设计和内存优化思路
Excel如何快速将一列数据转换为多行多列?
如何为机器学习索引,切片,调整 NumPy 数组
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券