腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
复杂
的
UDF
应用于
一组
记录
,
我
认为
需要
UDF
来
解决
这个
问题
、
、
我
必须找到当一个特定
的
商店改变它
的
品牌时,
我
需要
填充mthid。这应该适用于每一家商店。1027698.93600|1236544.50900| 201707+------+---
浏览 22
提问于2019-05-22
得票数 0
回答已采纳
1
回答
火花DataFrame: withColumn
的
订单有保证吗?
、
、
、
一个更好
的
例子: .withColumn("A", myUdf1($"x")) // withColumn1 from x
我
之所以问
这个
问题
,是因为在同一段代码
的
多次运行中,结果不一致,
我
开始
认为
这可能是
问题
浏览 5
提问于2017-08-23
得票数 1
回答已采纳
1
回答
将
文本预处理函数
应用于
scala spark中
的
dataframe列
、
、
我
想创建一个函数来处理我在处理文本数据时遇到
的
问题
。
我
熟悉Python和pandas数据帧,
我
通常
认为
解决
问题
的
过程是使用一个函数,然后使用pandas apply方法将该函数
应用于
列中
的
所有元素。然而,
我
不知道从哪里开始实现这一点。 因此,
我
创建了两个函数来处理替换。
问题
是
我
不知道如何在
这个
方法中放入多个替换
浏览 9
提问于2019-12-26
得票数 0
回答已采纳
2
回答
多过滤器查询?
、
、
阅读文档对
我
帮助不大。SELECT * FROM TABLE_NAME WHERE COLUMN1 = 1 AND COLUMN2 = 2 2)如果不可能使用JAVA CLIENT API
来
实现此目的,
我
必须编写自己
的
UDF
来过滤数据吗?3)如果
我
写自己
的
UDF
(过滤数据),它是快还是
浏览 0
提问于2017-02-02
得票数 3
2
回答
在.lua文件中注册自定义函数
、
、
这就是
我
的
问题
。
我
已经注册了这样
的
模块 asclient.client.udfRegister('.error) { console.error('Error: %s [%d]', error.message, error.code)}); 在代码平和之后,
我
检查
我
的
模块是否被正确注册,
udf
, function (error, result) {
浏览 20
提问于2019-01-24
得票数 0
1
回答
将用户定义
的
字段
应用于
任意实体
、
、
、
显然,这是相当可怕
的
,并导致一些惊人
的
可怕
的
查询被生成,但它现在还好,因为我们限制每个实体最多5个用户定义
的
字段。作为一个快速
的
免责声明,当
这个
设计决定做出时,
我
不在公司!)无论如何,我们即将启动一个闪亮
的
新项目,并且不可避免地
需要
一种更好
的
方法
来
实现这一点,我们可以不限制我们可以
应用于
实体
的
UDF
的
数量,提高性能,以及在生成<
浏览 0
提问于2012-10-29
得票数 3
2
回答
解决
UDF
性能
问题
-手动缓存
、
、
、
我
的
系统做了一些相当繁重
的
处理,
我
一直在攻击性能,以便在更短
的
时间内运行更多
的
测试。
我
有相当多
的
情况下,
UDF
必须被调用,比方说,500万行(
我
几乎
认为
没有办法绕过它)。好吧,事实证明,有一种方法可以
解决
这个
问题
,当在
一组
不同
的
参数上调用
UDF
时,它会带来巨大
的
性能改进。考
浏览 1
提问于2009-02-03
得票数 1
2
回答
VectorAssembler只输出到DenseVector?
、
VectorAssembler
的
功能有些令人讨厌
的
地方。
我
目前正在
将
一组
列转换为一列向量,然后使用StandardScaler函数
将
缩放
应用于
所包含
的
特性。然而,由于内存原因,火花似乎决定了它应该使用DenseVector还是SparseVector
来
表示每一行特性。但是,当您
需要
使用StandardScaler时,SparseVector
的
输入无效,只允许使用DenseVectors。有人知道<e
浏览 6
提问于2016-03-07
得票数 9
回答已采纳
1
回答
将不带返回值
的
Python Lambda函数转换为Pyspark
、
、
、
、
我
在Python语言中有一个有效
的
lambda函数,它可以计算dataset1中
的
每个字符串与dataset2中
的
字符串之间
的
最高相似度。没有返回值,因为该函数
的
目的是向bigquery数据集中插入一行。
这个
过程
需要
相当长
的
时间,这就是为什么
我
想使用Pyspark和Dataproc
来
加速
这个
过程。
将
熊猫数据帧转换为spark很容易。
我
在注册<e
浏览 16
提问于2019-07-19
得票数 2
回答已采纳
1
回答
星星之差AttributeError:'NoneType‘对象没有属性'_jvm’
、
、
、
我
发现了类似的
问题
,但没有回答如何
解决
这个
问题
。 return regexp_extract(x,re_
浏览 3
提问于2022-04-28
得票数 0
回答已采纳
1
回答
Pyspark:在
UDF
中传递多列和一个参数
、
、
我
正在编写一个
udf
,它将接受两个dataframe列以及一个额外
的
参数(一个常量值),并且应该向dataframe添加一个新列。= df.withColumn('new_column', apply_test('column1', 'column2')) 除非我
将
constant_var作为
我
的
函数第三个参数移除,否则它现在无法工作,但我确实
需要
这样做。
我
是基于和
的
堆栈溢出
浏览 0
提问于2018-10-16
得票数 5
回答已采纳
1
回答
使用多个参数调用
UDF
、
我
正在创建一个导入过程,在
这个
过程中,
我
最终
需要
选择几个字段以及一个计算值。计算值
的
逻辑相当
复杂
,
我
需要
在
UDF
中而不是在SELECT本身中这样做。
问题
是计算值是由30-40列
的
内容决定
的
.
我
所想
的
是: 编写SP或C#应用程序循环遍历所选数据。这一选择很可能不像其他方案那样具有未来<
浏览 2
提问于2017-12-02
得票数 0
1
回答
改进Pandas在火花放电中
的
应用
、
、
、
、
我
可以很容易地通过构造一个Pandas
来
实现这一结果,它将Pandas中
的
某些列作为输入,将它们转换为Pandas DataFrame,然后计算聚合并返回标量结果。然后
将
UDF
应用于
所需
的
滑动窗口。尽管此
解决
方案工作良好,但完成任务
需要
很长时间(3-4小时),因为DFs包含数百万行。是否有办法改善这种运算
的
计算时间?
我
正在数据库中使用Pyspark。
我
的
熊猫<em
浏览 5
提问于2021-04-11
得票数 2
3
回答
重新设计缓存
UDF
,因为不允许副作用
尝试复制一个函数
的
逻辑,如下所示:insert into lookup table (a, b, c, v) values (@a, @b, @c, @v)
这个
想法是,在表中查找值将比
复杂
的
计算快得多。如果您必须对
一组
值进行
复杂
<e
浏览 0
提问于2013-01-12
得票数 1
1
回答
计算日期之间
的
天数,忽略周末使用火星雨。
、
如何使用pyspark计算两个日期之间
的
天数(忽略周末)import numpy as npfrom pyspark.sql.types import IntegerType@
udf
(returnType=IntegerType()) def dateDiffWeek
浏览 3
提问于2020-09-28
得票数 4
回答已采纳
1
回答
DB性能-左外连接超过数据库功能
这是一个有点
复杂
的
查询,它具有多个联接,并使用多个数据字段重新运行许多
记录
。假设它主要用于检索经理
的
详细信息。假设
我
需要
列出每个经理
的
所有员工姓名,以了解第
一组
表
的
结果和没有员工
的
经理(这意味着要保留第
一组
表
的
经理列表)。然后,
我
必须通过“party”表访问“employee”表(可能会涉及更多
的
表)。etc
我
在这方面有两种方法
浏览 0
提问于2014-10-10
得票数 0
1
回答
Excel
UDF
不在另一台计算机上工作
、
、
我
已经搜索过互联网和堆栈溢出,但找不到我
的
问题
的
答案。
我
在Excel中定义了一个
UDF
,它保存在.xlam外接程序中
的
一个模块中。
UDF
在
我
的
电脑上运行得很好。现在,
我
正在尝试使用工作簿,它在另一台计算机(以不同
的
语言)上使用具有相同.xlam外接程序active
的
UDF
。然而,Excel突然
将
整个路径作为“绝对路径”引用到外
浏览 7
提问于2022-01-13
得票数 0
回答已采纳
1
回答
猪-如何使用python从数据集中计算速度
、
我
还没有找到太多关于使用带包
的
udfs
的
教程。假设
我
有以下数据集:100:100:0100:102:2200:202:3300:300:0现在
我
想计算每个UID
的
速度30
浏览 2
提问于2013-09-24
得票数 0
回答已采纳
1
回答
结合如何自定义
UDF
的
插入函数向导并使
UDF
操作其他单元格
的
探索
、
、
这个
问题
对于许多VBA程序员来说可能是有用
的
。它涉及实现两个有用
的
独立任务,并使它们同时工作。 如果您也对关于为函数工具提示
的
实现寻找最终
解决
方案
的
主题感兴趣,您可以访问以下内容:
我
在这里找到了一个很
浏览 1
提问于2015-10-14
得票数 4
2
回答
PayUmoney安卓集成中
的
问题
、
、
、
我
正在尝试
将
PayUMoney集成到我
的
应用程序中。如果
我
使用以下测试凭据,应用程序会给出适当
的
输出;String salt = "zhoXe53j"; String FAILED_URL = "https://www.payumoney.com/mobileapp/payumon
浏览 4
提问于2016-10-21
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
WebAssembly 如何吞噬数据库
WebAssembly 正在吞噬数据库!
PyFlink核心功能与应用全解
Hive之UDF
Python实现MaxCompute UDF/UDAF/UDTF
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券