将复杂的UDF应用于一组记录，我认为需要UDF来解决这个问题

、、

我必须找到当一个特定的商店改变它的品牌时，我需要填充mthid。这应该适用于每一家商店。1027698.93600|1236544.50900| 201707+------+---

浏览 22提问于2019-05-22得票数 0

回答已采纳

1回答

火花DataFrame: withColumn的订单有保证吗？

、、、

一个更好的例子： .withColumn("A", myUdf1($"x")) // withColumn1 from x我之所以问这个问题，是因为在同一段代码的多次运行中，结果不一致，我开始认为这可能是问题

浏览 5提问于2017-08-23得票数 1

回答已采纳

1回答

将文本预处理函数应用于scala spark中的dataframe列

、、

我想创建一个函数来处理我在处理文本数据时遇到的问题。我熟悉Python和pandas数据帧，我通常认为解决问题的过程是使用一个函数，然后使用pandas apply方法将该函数应用于列中的所有元素。然而，我不知道从哪里开始实现这一点。因此，我创建了两个函数来处理替换。问题是我不知道如何在这个方法中放入多个替换

浏览 9提问于2019-12-26得票数 0

回答已采纳

2回答

多过滤器查询？

、、

阅读文档对我帮助不大。SELECT * FROM TABLE_NAME WHERE COLUMN1 = 1 AND COLUMN2 = 2 2)如果不可能使用JAVA CLIENT API来实现此目的，我必须编写自己的UDF来过滤数据吗？3)如果我写自己的UDF (过滤数据)，它是快还是

浏览 0提问于2017-02-02得票数 3

2回答

在.lua文件中注册自定义函数

、、

这就是我的问题。我已经注册了这样的模块 asclient.client.udfRegister('.error) { console.error('Error: %s [%d]', error.message, error.code)}); 在代码平和之后，我检查我的模块是否被正确注册, udf, function (error, result) {

浏览 20提问于2019-01-24得票数 0

1回答

将用户定义的字段应用于任意实体

、、、

显然，这是相当可怕的，并导致一些惊人的可怕的查询被生成，但它现在还好，因为我们限制每个实体最多5个用户定义的字段。作为一个快速的免责声明，当这个设计决定做出时，我不在公司！)无论如何，我们即将启动一个闪亮的新项目，并且不可避免地需要一种更好的方法来实现这一点，我们可以不限制我们可以应用于实体的UDF的数量，提高性能，以及在生成<

浏览 0提问于2012-10-29得票数 3

2回答

解决UDF性能问题-手动缓存

、、、

我的系统做了一些相当繁重的处理，我一直在攻击性能，以便在更短的时间内运行更多的测试。我有相当多的情况下，UDF必须被调用，比方说，500万行(我几乎认为没有办法绕过它)。好吧，事实证明，有一种方法可以解决这个问题，当在一组不同的参数上调用UDF时，它会带来巨大的性能改进。考

浏览 1提问于2009-02-03得票数 1

2回答

VectorAssembler只输出到DenseVector？

、

VectorAssembler的功能有些令人讨厌的地方。我目前正在将一组列转换为一列向量，然后使用StandardScaler函数将缩放应用于所包含的特性。然而，由于内存原因，火花似乎决定了它应该使用DenseVector还是SparseVector来表示每一行特性。但是，当您需要使用StandardScaler时，SparseVector的输入无效，只允许使用DenseVectors。有人知道<e

浏览 6提问于2016-03-07得票数 9

回答已采纳

1回答

将不带返回值的Python Lambda函数转换为Pyspark

、、、、

我在Python语言中有一个有效的lambda函数，它可以计算dataset1中的每个字符串与dataset2中的字符串之间的最高相似度。没有返回值，因为该函数的目的是向bigquery数据集中插入一行。这个过程需要相当长的时间，这就是为什么我想使用Pyspark和Dataproc来加速这个过程。将熊猫数据帧转换为spark很容易。我在注册<e

浏览 16提问于2019-07-19得票数 2

回答已采纳

1回答

星星之差AttributeError：'NoneType‘对象没有属性'_jvm’

、、、

我发现了类似的问题，但没有回答如何解决这个问题。 return regexp_extract(x,re_

浏览 3提问于2022-04-28得票数 0

回答已采纳

1回答

Pyspark:在UDF中传递多列和一个参数

、、

我正在编写一个udf，它将接受两个dataframe列以及一个额外的参数(一个常量值)，并且应该向dataframe添加一个新列。= df.withColumn('new_column', apply_test('column1', 'column2')) 除非我将constant_var作为我的函数第三个参数移除，否则它现在无法工作，但我确实需要这样做。我是基于和的堆栈溢出

浏览 0提问于2018-10-16得票数 5

回答已采纳

1回答

使用多个参数调用UDF

、

我正在创建一个导入过程，在这个过程中，我最终需要选择几个字段以及一个计算值。计算值的逻辑相当复杂，我需要在UDF中而不是在SELECT本身中这样做。问题是计算值是由30-40列的内容决定的.我所想的是：编写SP或C#应用程序循环遍历所选数据。这一选择很可能不像其他方案那样具有未来<

浏览 2提问于2017-12-02得票数 0

1回答

改进Pandas在火花放电中的应用

、、、、

我可以很容易地通过构造一个Pandas来实现这一结果，它将Pandas中的某些列作为输入，将它们转换为Pandas DataFrame，然后计算聚合并返回标量结果。然后将UDF应用于所需的滑动窗口。尽管此解决方案工作良好，但完成任务需要很长时间(3-4小时)，因为DFs包含数百万行。是否有办法改善这种运算的计算时间？我正在数据库中使用Pyspark。我的熊猫<em

浏览 5提问于2021-04-11得票数 2

3回答

重新设计缓存UDF，因为不允许副作用

尝试复制一个函数的逻辑，如下所示：insert into lookup table (a, b, c, v) values (@a, @b, @c, @v)这个想法是，在表中查找值将比复杂的计算快得多。如果您必须对一组值进行复杂<e

浏览 0提问于2013-01-12得票数 1

1回答

计算日期之间的天数，忽略周末使用火星雨。

、

如何使用pyspark计算两个日期之间的天数(忽略周末)import numpy as npfrom pyspark.sql.types import IntegerType@udf(returnType=IntegerType()) def dateDiffWeek

浏览 3提问于2020-09-28得票数 4

回答已采纳

1回答

DB性能-左外连接超过数据库功能

这是一个有点复杂的查询，它具有多个联接，并使用多个数据字段重新运行许多记录。假设它主要用于检索经理的详细信息。假设我需要列出每个经理的所有员工姓名，以了解第一组表的结果和没有员工的经理(这意味着要保留第一组表的经理列表)。然后，我必须通过“party”表访问“employee”表(可能会涉及更多的表)。etc我在这方面有两种方法

浏览 0提问于2014-10-10得票数 0

1回答

Excel UDF不在另一台计算机上工作

、、

我已经搜索过互联网和堆栈溢出，但找不到我的问题的答案。我在Excel中定义了一个UDF，它保存在.xlam外接程序中的一个模块中。UDF在我的电脑上运行得很好。现在，我正在尝试使用工作簿，它在另一台计算机(以不同的语言)上使用具有相同.xlam外接程序active的UDF。然而，Excel突然将整个路径作为“绝对路径”引用到外

浏览 7提问于2022-01-13得票数 0

回答已采纳

1回答

猪-如何使用python从数据集中计算速度

、

我还没有找到太多关于使用带包的udfs的教程。假设我有以下数据集：100:100:0100:102:2200:202:3300:300:0现在我想计算每个UID的速度30

浏览 2提问于2013-09-24得票数 0

回答已采纳

1回答

结合如何自定义UDF的插入函数向导并使UDF操作其他单元格的探索

、、

这个问题对于许多VBA程序员来说可能是有用的。它涉及实现两个有用的独立任务，并使它们同时工作。如果您也对关于为函数工具提示的实现寻找最终解决方案的主题感兴趣，您可以访问以下内容：我在这里找到了一个很

浏览 1提问于2015-10-14得票数 4

2回答

PayUmoney安卓集成中的问题

、、、

我正在尝试将PayUMoney集成到我的应用程序中。如果我使用以下测试凭据，应用程序会给出适当的输出；String salt = "zhoXe53j"; String FAILED_URL = "https://www.payumoney.com/mobileapp/payumon

浏览 4提问于2016-10-21得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花DataFrame: withColumn的订单有保证吗？

将文本预处理函数应用于scala spark中的dataframe列

多过滤器查询？

在.lua文件中注册自定义函数

将用户定义的字段应用于任意实体

解决UDF性能问题-手动缓存

VectorAssembler只输出到DenseVector？

将不带返回值的Python Lambda函数转换为Pyspark

星星之差AttributeError：'NoneType‘对象没有属性'_jvm’

Pyspark:在UDF中传递多列和一个参数

使用多个参数调用UDF

改进Pandas在火花放电中的应用

重新设计缓存UDF，因为不允许副作用

计算日期之间的天数，忽略周末使用火星雨。

DB性能-左外连接超过数据库功能

Excel UDF不在另一台计算机上工作

猪-如何使用python从数据集中计算速度

结合如何自定义UDF的插入函数向导并使UDF操作其他单元格的探索

PayUmoney安卓集成中的问题

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐