腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
声明
包含
org.apache.spark.ml.linalg.Vector
的
Dataframe
:
列
的
StructType
scala
、
apache-spark
、
apache-spark-ml
我有一个名为df1
的
DataFrame
,其方案如下: root |-- features: vector (nullable= true) |-- label: double (nullable = false) 其中features和label是从LabeledPoint获得
的
。我想生成一个新
的
DataFrame
,但修改instances和features
的
内容。为了做到这一点,我写了以下代码: va
浏览 17
提问于2020-03-26
得票数 0
回答已采纳
1
回答
从当前
dataframe
的
模式编写Spark数据code模式(代码中)
dataframe
、
apache-spark
、
apache-spark-sql
、
schema
如果手动编写Spark
dataframe
的
整个模式是不可行
的
(当
dataframe
中可能有很多字段),并且您有所述数据have
的
预期模式时,在代码中
声明
预期模式
的
最节省时间
的
方法是什么?更详细
的
是: val schema =
StructType
(Array(StructField("colName", ...You 说,您有一个
包含
许多字段(可能
包含
MapT
浏览 3
提问于2019-10-16
得票数 1
回答已采纳
3
回答
修改Spark
dataframe
中
的
结构
列
apache-spark
、
pyspark
、
struct
、
apache-spark-sql
、
schema
我有一个PySpark
dataframe
,其中
包含
一个
列
"student“,如下所示: "name" : "kaleem",}在
dataframe
中,这方面的架构是: name: String, 我需要将该
列
修改为 &quo
浏览 3
提问于2020-05-27
得票数 2
回答已采纳
2
回答
在中创建
StructType
的
空
列
scala
、
apache-spark
我需要将
StructType
的
空
列
添加到现有的
DataFrame
中。尝试了以下几点:和:但是,在上述两种情况下,错误都是不支持
的
文字类型。
浏览 0
提问于2018-11-06
得票数 2
回答已采纳
2
回答
columnSimilarities()返回到火花数据帧
scala
、
apache-spark
、
apache-spark-sql
、
spark-dataframe
、
apache-spark-mllib
我对scala和所有的星火环境都很陌生,这一点对我来说还不太清楚:import org.apache.spark.sql.types.{
StructType
, StructField, StringType, IntegerType, DoubleType} import org.apache.spark.sql.functions.setOutputC
浏览 4
提问于2017-02-25
得票数 2
回答已采纳
2
回答
是否可以使用StructField创建一个元组类型
的
PySpark?
pyspark
我需要为Spark中
的
dataframe
创建一个架构。创建常规StructFields (如StringType、IntegerType )没有问题。但是,我想为元组创建一个StructField。我尝试了以下几点: StructField("dst_ip", StringType()), StructField("port
浏览 0
提问于2018-04-20
得票数 2
回答已采纳
1
回答
在databricks scala中,我可以根据模式过滤数据帧中
的
列
吗
scala
、
dataframe
、
databricks
我有一个
包含
7
列
的
dataframe
(A,B,C,D,E,F,G) df.schema // output StructField(A,StringType,true),StringType,true), StructField(G,true) ) 有没有什么方法可以通过使用另一个模式来过滤数据帧中
的
列
,如下所示 val newSchema =
浏览 10
提问于2020-10-24
得票数 0
回答已采纳
1
回答
Apache和UDF
java
、
apache-spark
、
apache-spark-sql
Spark 1.6 / Java-7# adding new column for the UDF computation:UDF函数创建新
StructType
并将其放入单元格
的
正确格式是什么?public static
DataFrame
compute(SQLContext sqlContext,
DataFrame
df) {
浏览 2
提问于2021-01-13
得票数 0
回答已采纳
1
回答
Scala :如何检查模式数据是否
包含
另一个模式
scala
、
apache-spark
、
recursion
目标是检查
dataframe
模式(第一个模式)是否
包含
另一个模式(第二个模式),如果不是,则返回我
的
第一个模式中不存在
的
所有字段。我们可以有一个简单
的
或复杂
的
模式。我认为它应该类似于一个递归函数。复杂模式(嵌套
列
)
的
示例.add("name",new
StructType
() .add("firstnam
浏览 3
提问于2022-06-15
得票数 0
1
回答
为嵌套Json创建Spark结构化流模式
apache-spark
、
pyspark
、
spark-streaming
、
spark-structured-streaming
我想为我
的
结构化流作业(在python中)定义模式,但我无法以我想要
的
方式获得
dataframe
模式。"This is the payload" "regionNumber": 11000002}schema1 =
StructType
([StructField("messages", ArrayType(
浏览 0
提问于2022-03-14
得票数 1
回答已采纳
1
回答
如何安全地删除不属于架构
的
列
?
apache-spark
、
pyspark
、
apache-spark-sql
我有一个
包含
列
:[A, B, ...M]和一个只需要从
dataframe
中获取很少列
的
模式
的
dataframe
: StructField(C, StringType(), True),由于我不拥有架构,所以我没有所有
列
的</e
浏览 2
提问于2021-03-20
得票数 1
回答已采纳
1
回答
星火CountVectorizer返回一个TinyInt
apache-spark
、
apache-spark-sql
、
apache-spark-mllib
我首先在这页上问我
的
问题:features` AS STRUCT<`type`: TINYINT, `size`: INT, `indices`: ARRAY<>, `values`: ARRAY<DOUBLE>>)' due to data type mismatch: canno
浏览 0
提问于2018-05-28
得票数 2
回答已采纳
1
回答
如何使用同一个case类创建多个数据帧
scala
、
apache-spark
、
hadoop
假设我想创建多个数据帧,一个有5
列
,另一个有3
列
,我如何使用一个case类来实现这个目标?
浏览 2
提问于2019-05-14
得票数 1
1
回答
从以csv分隔
的
制表符创建数据,其中有些
列
是json类型,而有些
列
不是
json
、
scala
、
apache-spark
、
apache-spark-sql
我试图从csv中创建一个(使用scala),其中
包含
如下条目:这是由5
列
组成
的
单个行条目: {“用户名”:“john_doe,”id:“123411”}{“国家”:“IN”,“城市”:“BOM”}所以,有些
列
是JSON格式
的
,而有些则不是。我确实编写了一些代码,将JSON列作为字符串处理,并将它们按行顺序直接添加到
dataframe
中,但剩下
的
其他
列
,我不得不手动将它们添加到
dataframe
中,因为我创建了一个单独
的</e
浏览 0
提问于2018-01-29
得票数 0
1
回答
创建具有嵌套结构
的
DataFrame
并从输入表填充数据
scala
、
apache-spark
、
apache-spark-sql
我正在使用Scala中
的
Spark,希望将现有的数据集(
dataframe
)转换为
包含
嵌套结构
的
新表。columnA columnB columnC columnD columnE 示例输出: columnA columnB columnC columnF:{columnD,columnE} (创建一个同时
包含
D和E作为嵌套结构
的
新
列
) 转换columnA-C很简单,因为我可以使用.withColumn(),但是我不确定如何指定新
的
嵌套
列</e
浏览 25
提问于2021-08-12
得票数 0
1
回答
加入嵌套
的
dataframes火花Scala
dataframe
、
scala
、
apache-spark
、
apache-spark-sql
( StructField(records,ArrayType(
StructType
( StructField.join(
dataframe
2,
dataframe
1(&quo
浏览 17
提问于2022-09-13
得票数 0
回答已采纳
5
回答
如何从PySpark中
的
数据中获取模式定义?
apache-spark
、
dataframe
、
pyspark
、
schema
、
azure-databricks
在PySpark中,您可以使用这个预定义
的
模式定义模式和读取数据源,例如: Schema =
StructType
([ StructField("temperature", DoubleType(),是否有可能从以前已经推断数据
的
数据中获得模式定义(以上述形式)?df.printSchema()将模式打印为树,但我需要重用该模式,并将其定义为上面,这样我就可以使用以前从另一个数据源推断出来
的
模式读取数据源。
浏览 0
提问于2019-02-03
得票数 36
回答已采纳
3
回答
如何从spark中
的
嵌套结构类型中提取列名和数据类型
scala
、
apache-spark
如何从spark中
的
嵌套结构类型中提取列名和数据类型(events,
StructType
( StructField(client,StringType,true), StructField(ad,
StructType
(
浏览 1
提问于2017-02-09
得票数 2
回答已采纳
8
回答
更改火花数据中
列
的
可空属性
scala
、
apache-spark
、
spark-dataframe
创建它
的
代码是:val inputDF = sqlCtx |-- var2: integer (nullable = false)对于这些变量中
的
每一个我如何从一开始就
声明
它,或者在创建它之后在一个新
的
dataframe
中切换它?
浏览 10
提问于2015-10-18
得票数 43
回答已采纳
1
回答
将
DataFrame
中
的
新派生
列
从布尔值转换为整数
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
假设我有一个具有此模式
的
DataFrame
x: StructField("a", DoubleType(), True), \我希望有一个整数派生
的
列
。我可以创建一个布尔
列
:我
的
新模式是
浏览 0
提问于2015-10-27
得票数 18
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL DataFrame与RDD交互
遇见YI算法之初识Pyspark(二)
Spark之SparkSQL
肝了3天,整理了90个Pandas案例
终极加分技能,8个Python高效数据分析的技巧,数行代码焕然一新
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券