pyspark:泛化Lambda中的"for“语句_DataFrame中的Lambda函数- "or“语句_Pandas UDF中lambda函数的PySpark等效项 - 腾讯云开发者社区

python、pyspark

我正在为DF中的单个列("text")计算多个特征，即数字字符数、字母数字字符数…… 目前，我所拥有的是： def query_features(df): .withColumn("non_numeric", my_fx("text")[1]) return df 由于我想多次迭代字符以计算不同的特征，是否可以在lambda<

浏览 16提问于2021-08-11得票数 0

1回答

在Pyspark中计算单词，同时包含特殊字符，并忽略大写？

python、pyspark

我正在做一个理解PySpark的小项目，我试图让PySpark对the文件中的单词执行以下操作；它应该“忽略”单词大小写的任何更改(例如，While vs while)，并且应该“忽略”单词末尾可能存在的任何额外字符我相当确定需要某种lambda函数或正则表达式，但我不知道如何将其泛化到可以弹出任何类型的文本文件(如一本书)，然后让它返回正确的分析。到目前为止，我的</em

浏览 9提问于2020-02-21得票数 2

1回答

检查输入数据集是否在PySpark中包含关键字

python、apache-spark、pyspark

我有如下所示的代码。我需要检查列y.lc.eoouh.ci是否存在于输入源中，如果存在，则填充该列，否则它应该为NULL。(键lc也是可选的)下面的代码似乎没有按照预期的方式工作，因为即使y.lc.eoouch.ci出现在输入中，它的计算结果也是NULL。 has_column实现来自here。df = df_s_a \ udf(

浏览 23提问于2021-10-18得票数 0

1回答

如何解决pyspark中的pickle错误？

python、dictionary、unicode、apache-spark、pyspark

我正在遍历文件，以收集有关字典中它们的列和行的值的信息。strip('\r') null_cols[str(m)] = defaultdict(lambdanull_cols[str(m)][str(data)] + 1 results

浏览 0提问于2015-11-07得票数 1

回答已采纳

2回答

如果在lambda中使用static_assert，哪个编译器是正确的？

c++、templates、language-lawyer、c++17、static-assert

有趣的是，gcc和clang在代码包装在lambda中时不同意。下面的代码与gcc一起编译，但是clang会触发断言，即使if constexpr不能为真。所以问题是:哪个编译器是对的？我认为gcc是对的，因为static_assert的情况依赖于T，但我不确定。

浏览 4提问于2020-01-08得票数 13

回答已采纳

2回答

火花源生成激光二极管阵列模型的pyLDAvis可视化

python、apache-spark、pyspark、lda

有谁有使用PySpark库(特别是使用)训练的LDA模型的数据可视化示例吗？我见过很多GenSim和其他库的例子，但没有看到PySpark。具体地说，我想知道要向pyLDAvis.prepare()函数传递什么，以及如何从我的lda模型中获取它。下面是我的代码： from pyspark.mll

浏览 2提问于2017-01-24得票数 13

1回答

AssertionError: dataType StringType()应该是pyspackk.sql.type.dataType class>中的一个实例

dataframe、apache-spark、pyspark、struct、types

我正在尝试泛化模式，以便在pyspark中创建空表。我的列表包含用空格分隔的名称和数据类型。我可以泛化名称，但它不能转换类型。from pyspark.sql.types import * , 'confidence DoubleTypeAssertionError: dataT

浏览 2提问于2022-03-08得票数 0

1回答

Python火花流输出

python、pyspark

我正在尝试执行这个程序，但是在控制台上看不到任何输出，而pprint语句是在哪里写的。from __future__ import print_functionfrom pyspark import SparkContext lines = ssc.textFileStream(sys.argv[1]) counts = lines.flatMap(lambdal

浏览 1提问于2017-09-25得票数 0

回答已采纳

1回答

带有模板调用操作符和通用lambdas - gcc对clang的重载结构

c++、lambda、overloading、language-lawyer、c++17

我发现了一个代码片段，它在clang++ 4(和主干)中编译和工作正常，但在g++ 7(和主干)中无法编译。设置的重载，它显式地处理a，而b和c则使用使用auto参数的通用lambda“捕获”：错误：'struct a‘没有名为'bar’的成员{ x.bar()；}；^ 编译器似乎试图实例化第二个lambda，尽管第一

浏览 1提问于2017-05-15得票数 11

回答已采纳

1回答

坚持Spark 2.0指的是什么？

apache-spark、pyspark

假设我在pyspark工作。我有一个RDD，rdd = sc.Textfile(file.txt)，我调用rdd.persist()，然后重新分配它：rdd = rdd.filter(lambda x: 'hi' in x)。现在是将sc.Textfile(file.txt)持久化在内存中，还是将rdd.filter(lambda x: 'hi' in x)持久化？

浏览 0提问于2018-02-20得票数 0

2回答

无法导入模块'lambda_function'：没有名为'pyspark‘的模块

python-3.x、pyspark、aws-lambda

我正在尝试使用AWS Lambda函数运行我的PySpark作业代码。下面是错误:无法导入模块'lambda_function'：没有名为'pyspark‘的模块我的PySpark工作具有以下导入。那么，我如何将下面的库导入到我的Lambda函数中呢？如何在Lambda函数中安装这些？from pyspark.sq

浏览 0提问于2018-12-11得票数 0

1回答

在persist中使用partitionBy()和持久化()

python、apache-spark、pyspark

我想优化我的脚本，做一个静音分区，并在Spark2.1中使用持久化()，但是在运行我的代码时，我有一个我不明白的错误。(920).persist() data=data.flatMap(lambda x:

浏览 0提问于2018-03-05得票数 1

回答已采纳

1回答

在没有sql函数的PySpark中对数据进行排序

python、sorting、apache-spark、pyspark

我在打印这个查询时遇到了一些问题，这个查询的月份按适当的顺序排序。from pyspark import SparkContextfrom operator import addSparkContext.getOrCreate() rows = sc.textFile(

浏览 1提问于2020-06-15得票数 0

回答已采纳

2回答

在实现文件中使用头文件的泛型lambda

c++、templates、lambda、template-specialization、generic-lambda

); }; } void someMethod(L);因此，使用接受泛型参数的泛型是否可以在MyType.cpp中为someMethod提供一个实现？这样做是行不通的：void MyType::someMethod(L lambda) lambda(42);

浏览 9提问于2020-02-14得票数 0

回答已采纳

1回答

Spark:如何将pairRdd的值转换为Rdd？

apache-spark、pyspark

我有一个这样的pairRdd： rdd = sc.parallelize([{'f':[1,2,3]},{'f':[1,2]}])reduce_rdd = pair_rdd.reduceByKey(lambda x,y: x+y) 输出结果： [('f', [1, 2, 3, 1, 2])] 因为red

浏览 14提问于2020-07-02得票数 1

回答已采纳

1回答

PySpark RDD与Scala的转换

apache-spark、pyspark、rdd

我正在开发一个PySpark应用程序，它使用星火流从Kafka提取数据。我的消息是字符串，我想在Scala代码中调用一个方法，向它传递一个DStream[String]实例。但是，我无法在Scala代码中接收到适当的JVM字符串。在我看来，Python字符串不是转换成Java字符串，而是序列化的。我正在PySpark

浏览 4提问于2016-09-12得票数 5

回答已采纳

1回答

映射函数在lambda函数中不可调用。

python、pyspark、mapreduce

我希望在以前创建的列表中做一个减缩。在输出中，结果显示"'map‘对象不可调用“，或者删除它返回的列表"<map对象at 0x7fc398d98670>”from pyspark.sql import SparkSession, Row from pyspark.sql.types import MapType, StringTypefrom <

浏览 7提问于2022-07-19得票数 0

1回答

如何在分发给工作人员的星火集群上执行任意python代码

python、apache-spark

我试图使用火花集群在python中运行一个模拟，该集群的形式有两个步骤：这个答案似乎是否定<em

浏览 2提问于2019-02-20得票数 3

1回答

星火流卡夫卡消费者(Avro) - AttributeError：'dict‘对象没有属性’拆分‘

python、apache-spark、pyspark、apache-kafka、avro

我正在尝试构建一个Streaming，它用Avro格式的消息从Kafka主题中消耗消息，但是我面临着汇合消息反序列化器的一些问题。按照的说明，我让Kafka使用者正确地反序列化消息，但最终未能运行PythonStreamingDirectKafkaWordCount示例。x: x[1]) counts = lines.flatMap(lambda line: line.split(" ")).map(lambda<

浏览 0提问于2018-03-17得票数 0

1回答

pyspark可以实现自定义的序列化对象吗

pyspark、serializable

我计划使用kafaka在pyspark中发送数据。通过搜索资料，我发现我需要对producer进行自定义序列化，以便可以广播该对象。但是我如何在pyspark中实现这个功能呢？spark==2.2.1public class KafkaProducer implements Serializable { instance = new KafkaProducer

浏览 43提问于2019-08-14得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云