python写udf - 腾讯云开发者社区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

在Hadoop上部署Python pip包？

、、、

为Hadoop/Pig写一个Python UDF，需要使用一些Python库，比如"request“，这是我在做本地box UDF测试时由pip安装在本地的。想知道如何在Hadoop集群上部署pip包，以便无论我的Python UDF在哪个节点上运行，它都会自动消耗？

浏览 2提问于2015-08-28得票数 1

1回答

pyspark udf的写入测试

、

我有一些内部的python依赖项在spark pandas_udf中执行。为了传递参数，我们将其封装在另一个函数中。代码如下所示 def wrapper_fn(df, parameters): def run_pandas_code():""" Importing some python library and using it """ return pandas_df

浏览 14提问于2021-04-01得票数 1

1回答

Java Spark程序中的Pyspark UDF

、、

有没有什么方法可以将在pyspark中创建的UDF用于Java Spark作业我知道有一种方法可以将Java UDF用于pyspark，但我正在寻找其他方法

浏览 0提问于2019-12-03得票数 0

2回答

如何使用红移上的函数插入表

、、、

现在我知道redshift不支持过程，而是启用python函数。import psycopg2 # Create connectioncur.execute(sql_statementy, (arg1, arg2, arg3)) print("insert into failed") retur

浏览 2提问于2017-09-06得票数 1

1回答

多列的PIG替换

、

我总共有大约150列，我想搜索\t并用空格替换它B = GROUP A ALL;STORE C INTO 'location';是否有更好的方法同时替换所有列？

浏览 0提问于2015-09-03得票数 2

回答已采纳

2回答

我正在尝试在python类中创建一个Spark-UDF。这意味着，类中的方法之一是UDF。Python版本: 3.5 Spark版本: 2.4.4 我尝试在单独的单元格中定义类外部的UDF，UDF起作用了。我不想写这样的代码，我需要遵循OOP原则，并希望保持它的结构。print("Inside the constructor of Class phases ") #I need the below 2 variables to be use

浏览 26提问于2019-10-16得票数 5

回答已采纳

2回答

我们如何将Apache用于未格式化的数据？

、、

我想使用Apache pig，但到目前为止，我只分析了格式化的数据，如csv或逗号分隔等等。就像我使用MapReduce时一样，在map中将数据拆分为";“，然后再用reduce中的"@&@”来分割数据。raw = LOAD 'log.csv' USING PigStorage(',') AS (username: chara

浏览 1提问于2011-12-26得票数 2

回答已采纳

1回答

配置单元中的python udf

、、、、

我想用python编写hive udf来解析name列(使用)，并将解析后的值放入表的不同列(标题、第一列、中间列、最后列、后缀列、昵称列)。#!/usr/bin/pythonfrom nameparser import HumanNamereturn name.title

浏览 1提问于2014-11-18得票数 0

2回答

Spark (2.3+)可从PySpark/Python调用的Java函数

、、

我的问题是：这是正确的吗？我是否可以创建1个public Java类，并将许多不同的UDF放入1个类中，并使所有的UDF都可以从Spark2.3中的PySpark调用？这篇文章没有提供任何示例代码来帮助回答

浏览 76提问于2018-08-11得票数 0

1回答

如何索引数组中的每个元素？

、、、

如果我写的是香草Python，它将是：对于Spark，我可以使用一个UDF：new_df = df.select(fn(f.col("但是，如果没有: PySpark，我如何才能做到这一点：使用UDF爆炸数组，并在之后重

浏览 6提问于2022-04-25得票数 0

回答已采纳

5回答

如何修复"ImportError: PyArrow >= 0.8.0必须安装；但是，没有找到“？

、、

/bin/pyspark....__/\_,_/_/ /_/\_\ version 2.4.0 File "/Users/x/sp

浏览 6提问于2019-03-27得票数 4

回答已采纳

1回答

无法在PySpark项目中生成文档而不运行session

、、、、

我有一个Python包，其中有一个模块，其中包含要在PySpark设置中使用的UDF。在运行单元测试时，我已经想出了一种初始化和关闭Spark会话的方法，但是我在创建文档时遇到了问题。我使用的是，所以我只需运行make clean docs并遇到以下错误： File "/usr/local/lib/python3.9/site-packages/pyspark/sql/pandas"/usr/local/li

浏览 8提问于2022-03-31得票数 1

回答已采纳

1回答

如何使用xlwing在Excel Python中获取单元格的列号和行号？

、、、

如果我在excel中调用一个用户定义的函数(UDF)，比如，=some_udf(A2:D2)和后端，也就是说，这个函数的定义是用python写的，我想要获取调用这个函数的单元格行号和列号，或者可能使用作为参数传递的范围来获取它们

浏览 260提问于2021-07-01得票数 0

1回答

kapacitor :指定python udf时不打开http端口。

、、、、

我试图从这个URL 中了解kapacitor用户定义函数(udf)。[udf] [udf.functions.geoSum] args = ["-u"

浏览 0提问于2018-09-11得票数 0

回答已采纳

1回答

TypeError:字段元组的第一个元素既不是元组也不是str，具有cuDF.DataFrame.apply(func，axis)。

、、

It [139](file:///opt/conda/lib/python3.8/site-packages/cudf/core/udf&#x

浏览 17提问于2022-05-20得票数 1

1回答

具有列表数据类型的列: Spark HiveContext

、、

我想知道我是否可以写一个返回自定义数据类型的udf，例如python dict？

浏览 2提问于2016-07-15得票数 0

1回答

飞机UDF的性能影响？

、、

我想知道，每次创建或更改某些记录时，调用用C编写的UDF (用户定义函数)时，会产生什么样的性能影响(假设假设，UDF代码本身不需要时间--我将自己对其进行优化)。假设我有能够在200 k写/s上运行SSD持久化命名空间的硬件，那么每次运行UDF时，我能期望至少有50k写/s吗？子问题:什么会限制UDF的性能(上下文切换？)问这个问题的原因是，国际航空公司正在使用这些UDF，例如用于大型数据类型，但根据工作人员的说法，它们的性能并不高(与KVS-操

浏览 1提问于2015-05-24得票数 1

回答已采纳

1回答