腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
:
对
没有
UDF
的
每
一行
应用
sliding
()
scala
、
apache-spark
、
apache-spark-sql
我有一个有几列
的
Dataframe。第i列包含字符串。我想将string
sliding
(n)函数
应用
于列中
的
每个字符串。有
没有
办法在不使用用户定义函数
的
情况下做到这一点?示例:我
的
数据帧是 var df = Seq((0, "hello"), (1, "hola")).toDF("id", "text") 我想
对
列"text"
的
每个元
浏览 13
提问于2020-11-05
得票数 1
回答已采纳
1
回答
不能在pyspark中使用python eval()作为pandas
udf
,但在python
udf
中使用相同
python
、
pandas
、
apache-spark
、
pyspark
、
user-defined-functions
我是pyspark中
的
pandas
udf
的
新手,需要帮助为大型数据帧(>1亿行)中
的
每
一行
应用
udf
。我
的
dataframe中有一列,其中包含使用dataframe中
的
列
的
多个条件。
对
每
一行
应用
条件
的
最好方法是使用python eval。当在python
udf
中使用python ev
浏览 29
提问于2021-06-25
得票数 0
1
回答
创建/注册PySpark
UDF
并将其
应用
于一列
python
、
apache-spark
、
pyspark
、
user-defined-functions
我只是有点困惑如何创建火花
udf
。我现在有一个函数parse_xml,并执行以下操作:parsed_df = xml_df.withColumn("parsed_xml', parse_xml_
udf
(xml_df['raw_xml'])) 其中xml_df是原始
的
spark
,而raw_xml是我想要
应用</
浏览 2
提问于2020-06-30
得票数 0
回答已采纳
1
回答
Spark
scala中置信度区间
的
计算
scala
、
apache-spark
、
confidence-interval
.| final_integration_df.show(100) 然而,我
的
问题是,在我
的
数据帧中,所有三个值(置信区间、最小置信区间和最大置信区间)
的
置信区间是11139.0,这等于"10.0.0.1“和"10.0.0.2”之间
的<
浏览 0
提问于2017-07-06
得票数 0
1
回答
Spark
中
的
用户定义函数(
UDF
)是否在集群工作节点上并行运行?
apache-spark
、
user-defined-functions
假设我在python中创建了一个函数,所以将一个数字求幂为2: def squared(s): return s * s 然后我在
Spark
session中注册了这个函数,如下所示:
spark
.
udf
.register("squaredWithPython", squared) 然后当我在
Spark
SQL中调用
UDF
时,如下所示:
spark
.range(1, 20).registerTempTable("test函数是否会在群集
的</em
浏览 33
提问于2019-10-10
得票数 0
回答已采纳
2
回答
Spark
SQL中
的
udf
scala
、
apache-spark
、
apache-spark-sql
、
udf
我
的
问题是,我需要根据regexDef中
的
两列匹配正则表达式
的
两列来过滤dataDf。mode=Partial,isDistinct=false)], output=[currentCount#121L]) TungstenProject TungstenProject Filter
UDF
浏览 0
提问于2015-10-14
得票数 1
1
回答
结构化流是如何执行pandas_
udf
的
?
apache-spark
、
pyspark
、
spark-structured-streaming
我想了解结构化流是如何处理新数据
的
。dfInt =
spark
\ .load() \ .withColumn("prediction", pred
浏览 1
提问于2019-12-06
得票数 1
回答已采纳
2
回答
wrappedArray火花阵列
apache-spark
、
apache-spark-sql
、
spark-dataframe
我
的
数据在火花是非常复杂
的
。我试图使用一个
UDF
,它接受2列,然后在
每
一列
的
每
一行
上同时运行一个函数。
每
一列都有以下相同
的
模式: |-- A: array (nullable = true)在某些情况下当我在列上做.dtypes时,我得到: test: Array[(String, String)] = Array((A,Ar
浏览 0
提问于2018-04-09
得票数 1
回答已采纳
1
回答
用火花将字段添加到Csv中
java
、
apache-spark
、
apache-spark-sql
、
rdd
为了
对
我们有用,我们将空间信息转换为"geohash",将时间信息转换为"timehash“。在@Alvaro是帮助之后,我创建了这个java类:public static SparkConf
Spa
浏览 0
提问于2018-08-02
得票数 0
回答已采纳
1
回答
将多行结构化流式传输到pandas
udf
pandas
、
apache-spark
、
pyspark
、
user-defined-functions
我正在写一个结构化
的
流式作业,它接收来自eventhubs
的
数据。在做好一些准备之后,我在
每
一行
上
应用
一个pandas_
udf
函数来创建一个新列,其中包含来自一个pickle模型
的
预测。我遇到了一个严重
的
问题:有时pandas_
udf
的
输入是一组行,而不是单行(正如预期
的
那样)。withColumn不应该在
每
一行
上逐行执行吗?下面是我
的
代码: d
浏览 0
提问于2019-12-06
得票数 1
2
回答
在
spark
dataframe中转换另一列时使用列值
python
、
sql
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个这样
的
数据帧:df =
spark
.createDataFrame(rdd1dec| val||100| 2|1234.5678|+---+---+---------+ 根据dec列中
的
可用值/python/pyspark/sql/column.py", line 4
浏览 4
提问于2018-08-28
得票数 0
回答已采纳
1
回答
在星火中
的
嵌套XML中,从父数据帧中为子数据帧添加额外
的
列
apache-spark
、
apache-spark-sql
、
apache-spark-xml
每个xml文件都有一个唯一
的
字段fun:DataPartitionId,我正在从一个XML文件中创建许多行。因此,fun:DataPartitionId作为每个XML中
的
头文件。 im
浏览 0
提问于2018-02-07
得票数 0
回答已采纳
1
回答
使用Java使用
Spark
列从java Map读取值
java
、
apache-spark
我尝试了下面的代码,通过java中
的
spark
列获取Map值,但根据每个关键字搜索,从Map获取期望精确值
的
null值。
Spark
数据集包含一列,名称为KEY,数据集名称为dataset1 数据集中
的
值: KEY2 Java代码- Map<String,string> map1 = new HashMap<>()get(col("KEY")))); 当前输出为: ABCD (Column name)null 预期输出: ABCD (Colum
浏览 118
提问于2021-10-14
得票数 1
回答已采纳
1
回答
如何从火花数据帧中
的
每
一行
中减去
每
一行
?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个火花数据,有3列,表示原子
的
位置i-e,位置X,Y& Z。现在,为了找到
每
2个原子之间
的
距离,我需要
应用
距离公式。距离公式为d= sqrt((x2−x1)^2+(y2−y1)^2+(z2-z1)^2) 因此,要
应用
上面的公式,我需要从x中
的
每
一行
减去x中
的
每
一行
,从y中
的
每
一行
减去y中
的
每
<em
浏览 0
提问于2019-04-03
得票数 0
回答已采纳
1
回答
Apache在DataFrame中插入多行
java
、
apache-spark
、
apache-spark-sql
首先,我被绑定到Java 1.7和Java
Spark
1.6 我有很多列和数据,但是让我们按照简单
的
例子来做。其中一个要求是每次在每行之后(或在具有某种值
的
每
一行
之后)创建和追加新
的
N行。我面临的当前问题是:通过dataFrame.foreach(new Function1<Row, BoxedUnit>() {...})实现
的
方法<--不是一个功能接口;
没有
java8;必须实现整个接口就我个人而言,我不确定foreach是否是最好
浏览 1
提问于2021-01-12
得票数 0
回答已采纳
3
回答
在
Spark
Java中将超过22列传递给
UDF
java
、
apache-spark
、
apache-spark-sql
我有一个用我
的
Spark
Java代码编写
的
UDF
,我想在其中传递超过22列(恰好24列)。但是
Spark
API只允许最多22列,有什么技巧可以覆盖它吗?或者我可以创建自定义
UDF
函数来覆盖这个限制吗?
浏览 0
提问于2019-01-13
得票数 0
1
回答
如何处理不同类型
的
PySpark自定义项返回值?
list
、
dataframe
、
pyspark
、
typeerror
、
user-defined-functions
我有一个只有一列
的
数据框。在此数据框
的
每
一行
中,都有一个列表。例如: df =
spark
.createDataFrame( [[13,23]], ],) 然后,我定义了一个
UDF
,它基本上将列表中
的
第一个数字加1,并将列表中
的
第二个数字加1.5。def calculate(mylist) : x = mylist[0] + 1
浏览 25
提问于2020-01-23
得票数 0
回答已采纳
2
回答
如何在
Spark
SQL中将额外
的
参数传递给
UDF
?
scala
、
apache-spark
、
apache-spark-sql
、
user-defined-functions
我想解析DataFrame中
的
日期列,对于每个日期列,日期
的
分辨率可能会改变(例如,如果分辨率设置为“/01”,则为2011/01/10 => 2011 /01)。: Array[FieldDataType], resolution: Array[DateResolutionType]) : DataFrame = import org.apache.
spark
.sql.functions._ val convertDateFunc =
udf
{(x:String,
浏览 0
提问于2016-02-22
得票数 21
回答已采纳
2
回答
如何在PySpark中求数组
的
平均值
python
、
pandas
、
pyspark
、
pyspark-sql
、
pyspark-dataframes
] |f |+---+-----------------------------+---+目前,我正在使用一个
udf
来完成这些工作。("B"))).withColumn( "Avg&
浏览 11
提问于2019-12-10
得票数 0
回答已采纳
1
回答
Spark
word2vec findSynonyms on Dataframe
scala
、
apache-spark
我正在尝试使用不带collecting (操作)
的
findSynonyms操作。下面是一个例子。我有一个保存向量
的
DataFrame。然后我了解到,
spark
不支持嵌套转换或操作。一种可能
的
方法是收集此DataFrame,然后运行findSynonyms。如何在DataFrame级别上执行此操作?
浏览 2
提问于2017-05-16
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Apache Spark强势崛起
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券