腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
创建
countVectorizer模型
的
一个
列
中
包含值
数组
的
火花数据
apache-spark
、
spark-dataframe
、
countvectorizer
我正在尝试执行星火
的
countVectorizer模型。作为这个需求
的
一部分,我正在读取一个csv文件并从其中
创建
一个
Dataframe
(inp_DF)。
中
创建
第4
列
,其中包含所有这3
列
的
值
数组
,如| indiana|需要这
浏览 1
提问于2017-09-05
得票数 0
回答已采纳
1
回答
使用
Spark
Dataframe
(
Scala
)
中
的
另一
列
数组
创建
数组
列
arrays
、
scala
、
apache-spark
、
type-conversion
我对
Scala
和
Spark
都是新手。我正在尝试将从文件读取
的
输入转换为双精度浮点型(这在此应用程序
中
是安全
的
),以减少内存
使用
。我已经能够通过一个双精度
列
来做到这一点。单个元素的当前方法: import org.apache.
spark
.sql.functions.myDF.withColumn("timeF", tcast(col("time"))).drop("time").withCol
浏览 15
提问于2020-01-29
得票数 0
回答已采纳
1
回答
Scala
返回“不支持类型单元
的
架构”
scala
、
apache-spark
我想对
dataframe
中
的
列
进行更改。
列
是整数
的
数组
。我想替换
数组
的
一个元素,从
另一
个
数组
中
获取索引,并将该元素替换为来自第三个
数组
的
元素。示例:我有三个
列
-- C1、C2、C3 --这三个
数组
。我希望按以下方式替换C3
中
的
元素。 C3[C2[i]] = C1[i].$.s
浏览 0
提问于2018-07-02
得票数 0
回答已采纳
3
回答
org.apache.
spark
.sql.AnalysisException:
scala
、
dataframe
、
apache-spark
df.withColumn(x, when($"x" > 75, $"x" + 10).otherwise($"x")).show()res6: String = Marks 我希望传递一个变量作为参数,该变量存储
dataframe
的
列
值。基于该参数,它将检查条件,计算值,并替换该
dataframe
中
同名
的
浏览 2
提问于2020-07-10
得票数 0
回答已采纳
2
回答
使用
Scala
/Java API基于外部
数组
内容
的
自定义排序
java
、
scala
、
sorting
、
apache-spark
---------+| SuperiorCard|| Distinguish|我有一个自定义顺序
的
数组
,我希望数据集按
数组
中
给定
的
顺序排序。|| Distinguish||ColonialVoice|+-------------+ 如何
使用
spark
Java AP
浏览 0
提问于2019-05-08
得票数 2
2
回答
[
Scala
][
Spark
]:转换数据帧
中
的
列
,保留其他
列
,
使用
withColumn和map [错误:缺少参数类型]
scala
、
apache-spark
、
types
、
functional-programming
、
explode
, C++]| CA||Robert,,Williams| [CSharp,|CA ||Michael,Rose, |
Spark
|NJ | .toDF("Name&qu
浏览 11
提问于2021-10-11
得票数 2
2
回答
针对
Scala
中
的
某个特定ID向数据文件添加值
scala
、
apache-spark
、
apache-spark-sql
我有以下数据:1 Ali swl3 Ahad khi以及(1,2,1)这样
的
值列表:我想在ID == 3
中
添加这些值。因此,
DataFrame
看起来像:1 Ali swl null null null 2
浏览 3
提问于2020-05-03
得票数 0
回答已采纳
1
回答
如何将Sha2应用于特定
列
,该
列
在Hive
中
以
数组
结构
的
形式存在,还是在
spark
中
?动态
scala
、
apache-spark
、
hive
、
apache-spark-sql
、
hiveql
我在蜂巢里有数据1001 smith [pnno:999,ssn:12345,email:ss@mail.com]我必须在这个
数组
列
中
应用SHA2,并且输出应该显示。1001,smith,[999,*****(sha2 masked value), ss@gmail.com] 输出应该是相同
的
数组
结构格式。我目前正在
创建</
浏览 2
提问于2021-04-14
得票数 0
回答已采纳
3
回答
如何在不同大小
的
数组
列
中
随机选择元素?
scala
、
apache-spark
、
apache-spark-sql
给定具有不同大小
的
整数
数组
列
的
数据文件:+------------++------------+root | |-- element: integer (containsNull = true) 我希望在每个
数组
中生成一个具有随机选择项
的
新
列
我尝试过两种解
浏览 0
提问于2018-05-22
得票数 3
回答已采纳
1
回答
从列到
数组
Scala
Spark
sql
、
arrays
、
scala
、
apache-spark
我正在尝试在
scala
的
Column上应用一个函数,但是我遇到了一些困难。有这样
的
错误required: Array[Double]更新:代码如下: def get_quantile (varia
浏览 1
提问于2018-10-03
得票数 1
2
回答
如何将函数应用于
Spark
DataFrame
的
列
?
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
让我们假设我们有一个
Spark
DataFrame
Class[_ <: org.apache.
spark
.sql.
DataFrame
] = class org.apache.
spark
.sql.
DataFrame
使用
下面的模式root|-- tk: array (nullable = true) ||-- element: strin
浏览 2
提问于2016-01-05
得票数 7
回答已采纳
2
回答
将Array[string]类型
的
两
列
合并为新
的
Array[string]
列
scala
、
apache-spark
、
apache-spark-sql
、
user-defined-functions
我在
Spark
DataFrame
中有两
列
,每一
列
中
的
每个条目都是字符串
数组
。curious", "bought", "20"), Seq("iwa", "was", "asj"))我希望合并每一行
中
的
<
浏览 1
提问于2018-03-07
得票数 9
回答已采纳
1
回答
如何估计星火
DataFrame
中
每
列
的
大小(以字节为单位)?
apache-spark
、
pyspark
我有一个非常大
的
星火
DataFrame
和许多
列
,我想作出一个明智
的
判断是否保持在我
的
管道
中
,部分取决于它们有多大。所谓“有多大”,我指的是缓存这个
DataFrame
时内存
中
字节
的
大小,我希望这是对处理这些数据
的
计算成本
的
一个不错
的
估计。有些
列
是简单类型(例如,双列、整数列),而
另一
些
列
是复杂类型(例如
数组
和可变
浏览 0
提问于2019-02-25
得票数 2
回答已采纳
1
回答
星星之火--从
Scala
中
两个
数组
的
笛卡儿积
中
创建
Dataframe
arrays
、
scala
、
apache-spark
butter", "apples", "oranges")val size = (customersLen*itemsLen)-1
浏览 0
提问于2018-06-20
得票数 1
回答已采纳
2
回答
如何在
Spark
(2.4) SQL -
Scala
2.11
中
避免ArrayType
的
自动转换
scala
、
apache-spark
、
casting
、
apache-spark-sql
给定
Spark
2.4和
scala
2.11
中
的
代码 val df =
spark
.sql("""select array(45, "something", 45)""") 如果我
使用
df.printSchema()打印模式,我会看到
spark
自动转换为字符串CAST(45 AS STRING)。array (nullable = false) | |-- element: stri
浏览 30
提问于2020-01-21
得票数 3
2
回答
从C#列表
创建
数据帧-针对.NET
的
火花
c#
、
apache-spark
、
mobius
、
.net-spark
、
spark-dotnet
我目前是.NET
的
新手,需要将C#列表追加到增量表
中
。我假设我首先需要
创建
一个
Spark
DataFrame
来做这件事。在示例代码
中
,如何将“name”附加到
dataframe
"df"?现在这似乎已经被弃用了(),新版本()
中
不能
使用
RDDusing Microsoft.
Spark
.Sql; namespace HelloS
浏览 22
提问于2019-08-08
得票数 1
1
回答
将StringType
列
添加到现有的
DataFrame
中
,然后应用默认值
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
Scala
2.10在这里
使用
Spark
1.6.2。我有一个与类似的(但不是相同
的
)问题,然而,被接受
的
答案不是,它假定了关于火花
的
某种“预先知识”;因此我无法复制它或理解它。(更重要
的
是,),这个问题也仅限于向现有的
dataframe
中
添加一个新
列
,而我需要添加一个
列
以及数据中所有现有行
的
值。因此,我希望向现有的
DataFrame
添加一
列
,然后将
浏览 4
提问于2016-10-10
得票数 7
回答已采纳
1
回答
Scala
Spark
Dataframe
中
的
扁平嵌套json
scala
、
apache-spark
、
multidimensional-array
、
apache-spark-sql
我有来自任何restapi
的
多个jsons,我不知道它
的
模式。我无法
使用
dataframes
的
爆发函数,因为我不知道列名,它是由
spark
创建
的
。1.可以通过解码
dataframe
.schema.fields
中
的
值来存储嵌套
数组
元素
的
键,因为
spark
只提供数据行
中
的
值部分,并以顶层键作为列名。.| +-------------
浏览 4
提问于2020-05-18
得票数 5
回答已采纳
1
回答
使用
字节
数组
创建
火花DataSet时出错
scala
、
apache-spark
、
apache-spark-sql
我正在
使用
case类和
spark
.sql({query}).as[MyCaseClass]语法在
scala
中
创建
Spark
.as[HbaseRow] 通常情况下,这很好,但是对于字节
数组
,这是失败
的
。$$arrayClassFor$1.apply(ScalaReflection.
sca
浏览 1
提问于2018-11-26
得票数 1
回答已采纳
1
回答
在现有
列
的
基础上在
DataFrame
中
添加新
列
scala
、
apache-spark
、
apache-spark-sql
我有一个包含日期时间
列
的
csv文件:"2011-05-02T04:52:09+00:00“。我
使用
scala
,文件被加载到
spark
DataFrame
中
,我可以
使用
jodas时间来解析日期:import sqlContext.implicits._ val df = new SQLContext(sc).load("com.databricks.
sp
浏览 0
提问于2015-04-28
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习之计算工具库(三)
遇见YI算法之初识Pyspark(二)
Python数据分析常见库介绍之Pandas
pandas功能函数总结
Python数据分析入门日记Day6:数据分析库Pandas:Series和Dataframe
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券