在pyspark的数组列中使用SequenceMatcher_在pyspark中创建列的数组_在Pyspark中使用空数组筛选列 - 腾讯云开发者社区

python、dataframe、pyspark

我有一个数据帧，在pyspark dataframe中有一个数组列‘test’，它有3行或更多行。测试-‘hello’，‘地狱’，‘Help’，‘helper’‘sequence’，‘seque’ 如何使用difflib.sequencematcher遍历行的每个元素，如果两个元素的比率小于90%，则在新列中添加两个元素，说明‘test_ratio，如果它大于，则只保留两个元素中的一个元素？示例:从第一行开始比较前两个元素‘hello’和‘hell’，如果ratio大于90%，则将hello添加到test_ratio中，如果ratio小于90%，则将hello与help进行比较，如果ra

浏览 11提问于2021-07-18得票数 0

回答已采纳

1回答

AttributeError：'NoneType‘对象没有属性'lower’

apache-spark、pyspark、pyspark-sql、pyspark-dataframes

浏览 1提问于2020-02-24得票数 0

1回答

如何在PySpark中使用嵌套for循环的列表理解

python-3.x、pandas、for-loop、pyspark、list-comprehension

浏览 1提问于2021-03-05得票数 1

回答已采纳

5回答

csv的两列比较及在另一csv中输出字符串相似率

python、pandas、csv、difflib、sequencematcher

我对python编程非常陌生。我试图获取一个csv文件，该文件有两列字符串值，并希望比较两列之间字符串的相似度。然后，我想获取值并在另一个文件中输出比率。 csv可能是这样的： Column 1|Column 2 tomato|tomatoe potato|potatao apple|appel 我希望输出文件显示每一行，第1列中的字符串与第2列有多相似，我正在使用difflib输出比率分数。这是我到目前为止掌握的代码： import csv import difflib f = open('test.csv') csf_f = csv.reader(f) ro

浏览 7提问于2016-04-22得票数 4

回答已采纳

2回答

使用Python中的List自动更正列值

python、pandas

我让eben尝试将state_name列与列表值匹配，它运行良好，但是当输入数据变得区分大小写时输入数据： state_name 0 Assan 1 Andhra Prade5h 2 M1zoram 3 Uttar Pr8desh 4 MIZORAM 我一直在使用的脚本： from difflib import SequenceMatcher lst = ['Assam','Andhra Pradesh', 'Mizoram', 'Uttar Pradesh'] #Correct Name List

浏览 0提问于2021-03-26得票数 1

回答已采纳

1回答

检查pandas数据帧中文本的相似度

python、pandas、similarity

我有一个数据帧 Account Message 454232 Hi, first example 1 321342 Now, second example 412295 hello, a new example 1 in the third row 432325 And now something completely different 我想检查消息列中的文本之间的相似性。我需要选择其中一条消息作为要测试的源(例如，第一条消息)，并使用相似性测试的输出创建一个新列。如果我有两个列表，我会这样做 import spacy spacyModel = s

浏览 35提问于2020-06-23得票数 0

回答已采纳

1回答

如何在星火中的Logistic回归分类器中传递多列作为特性？

python、apache-spark、machine-learning、pyspark、logistic-regression

我试图使用一个简单的数据集来运行Logistic回归，以理解pyspark的语法。我有数据，看上去有11列，其中前10列是特性，最后一列(第11列)是标签。我想传递这10列作为特征和第11列作为标签。但是我只知道作为一个列传递，使用featuresCol="col_header_name"作为一个特性传递，我使用熊猫读取了csv文件中的数据，但我已经将其转换为RDD。以下是代码： from pyspark.ml.classification import LogisticRegression from pyspark.sql import SQLContext from pys

浏览 0提问于2019-02-19得票数 3

回答已采纳

1回答

如何在pyspark中解压list类型的列

python、apache-spark、pyspark、apache-spark-sql

浏览 29提问于2020-01-24得票数 0

回答已采纳

1回答

使用diff工具SequenceMatcher仅获取满足特定比率条件的字符串

python、pandas

有没有一个例子，当比率条件满足时，我可以在dataframe的一列中获得两个字符串？示例-在将一个字符串与数据帧的列进行比较时，它应该只返回SequenceMatcher.ratio() >0.8时的字符串。

浏览 4提问于2020-02-28得票数 1

回答已采纳

4回答

如何在Spark中压缩两个数组列

python、pandas、apache-spark、pyspark、apache-spark-sql

我有潘达的数据。我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下： df['column_1']: 'abc, def, ghi' df['column_2']: '1.0, 2.0, 3.0' 我想将这两列连接到第三列中，如下所示，我的每一行数据都是这样的。 df['column_3']: [abc_1.0, def_2.0, ghi_3.0] 我已经在python中成功地使用了下面的代码，但是dataframe相当大，运行整个datafra

浏览 2提问于2019-01-21得票数 9

回答已采纳

3回答

Scala API中函数"typedLit“的PySpark等效项

scala、apache-spark、pyspark、apache-spark-sql

我们在中有一个函数typedLit来添加数组或映射作为列值。 import org.apache.spark.sql.functions.typedLit val df1 = Seq((1, 0), (2, 3)).toDF("a", "b") df1.withColumn("seq", typedLit(Seq(1,2,3))) .show(truncate=false) +---+---+---------+ |a |b |seq | +---+---+---------+ |1 |0 |[1, 2, 3]| |

浏览 1提问于2020-05-31得票数 7

1回答

动态汇总和重命名PySpark中的聚合列

python、apache-spark、pyspark、apache-spark-sql、data-manipulation

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'Balance'，'Customer‘-->这是一个不断变化的动态列表

浏览 24提问于2021-09-08得票数 0

2回答

在pyspark DataFrame中创建某个类型的空数组列

python、dataframe、apache-spark、pyspark

我尝试向df添加一个包含字符串数组的空数组的列，但最终添加了一个字符串数组的列。我试过这个： import pyspark.sql.functions as F df = df.withColumn('newCol', F.array([])) 我如何在pyspark中做到这一点？

浏览 91提问于2019-08-28得票数 9

回答已采纳

1回答

删除pyspark中的嵌套列

python、apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

浏览 20提问于2020-06-15得票数 0

回答已采纳

2回答

如何遍历两个Python列表以获得西班牙语和英语中相似的单词

python、list、word、letter

我有两个很长的列表，一个是英文单词，另一个是google.translate的西班牙语翻译。顺序完全一致。例如english_list =‘偏见’，‘可怕’，‘恶性’，‘可怕’，‘批准’spanish_list =‘偏见’，‘严重’，‘恶性’，‘阿托兹’，‘合理’ 我需要从两个列表中获取在字母方面或多或少相似的所有单词我首先检查了两个单词开头是否有相似的字母，但后来意识到在某些情况下，相似的单词的开头略有不同(例如“偏见”-“有害的”)。所需的输出是在标题“英语”和“西班牙语”下包含两列的表，这两列具有相似的单词，但不包括看起来不同的单词：英语，西班牙语有失偏颇。恶性肿瘤和恶性肿瘤

浏览 0提问于2019-09-11得票数 1

1回答

如何在熊猫数据帧中找到两行间的相似度

python、pandas、nlp、similarity、sentence-similarity

我想找出两行之间给定句子的相似之处。在我的样本数据框架中： import pandas as pd data = [f'Sent {str(i)}' for i in range(10)] df = pd.DataFrame(data=data, columns=['Sentences']) Sentences 0 Sent 0 1 Sent 1 2 Sent 2 3 Sent 3 4 Sent 4 5 Sent 5 6 Sent 6 7 Sent 7 8 Sent 8 9 Sent 9 我想找

浏览 8提问于2022-11-13得票数 -1

1回答

在dataframe中，每一行两列的字符串匹配

python-3.x、pandas、matrix、fuzzy

假设我有一只熊猫的数据，看起来是这样的： ID String1 String2 1 The big black wolf The small wolf 2 Close the door on way out door the Close 3 where's the money where is the money 4 123 further out out further 在进行模糊字符串匹配之前，我希望

浏览 1提问于2021-04-28得票数 1

回答已采纳

1回答

熊猫中两列字符串与SequenceMatcher的比较

python、pandas、nlp、sequencematcher

我试图确定熊猫数据栏中两列的相似性： Text1 All Performance results achieved by the approaches submitted to this Challenge. The six top approaches and three others outperform the strong baseline. Accuracy is one of the basic principles o

浏览 2提问于2020-08-12得票数 0

回答已采纳

2回答

子字符串PySpark 2.2中数组列的每个元素

python、arrays、pyspark、apache-spark-sql

浏览 24提问于2021-09-09得票数 0

回答已采纳

1回答

从密集向量列中获取新列中每一行的最大预测值

python、apache-spark、pyspark、databricks

我有一个pyspark，我已经将随机分类器模型(来自pyspark.ml.classification导入RandomForestClassifier)应用于多类数据。现在，我有预测和概率列(密集向量列)。我希望在一个新列中的最大概率从可用的概率列，它对应于预测。你能告诉我一条路吗？ --------------------+----------+--------------+ | probability|prediction|predictedLabel| +--------------------+----------+--------------+ |[0.049801

浏览 0提问于2021-10-04得票数 2

回答已采纳

3回答

如何从列中提取值，并将其作为浮动值？

list、apache-spark、pyspark、apache-spark-sql

我有一个在视觉上看上去像的pyspark，如下所示。我希望该列仅保存浮点值。请注意，当前的值在它周围有方括号。 from pyspark.sql.types import StructType,StructField from pyspark.sql.types import StringType, IntegerType, ArrayType data = [ ("Smith","OH","[55.5]"), ("Anna","NY","[33.3]"), ("Williams"

浏览 4提问于2021-04-09得票数 1

1回答

将字符串相似率最高的两列中的字符串匹配-熊猫

python、string、difflib

我有两个数据： import pandas as pd df1 = pd.DataFrame({'Index': [1, 2, 3, 4, 5], 'name1': ['A brewery', 'B fresh produce', '100 wines', 'C canzirri ', 'D company']}) df2 = pd.DataFrame({'Index': [1, 2, 3, 4, 5, 6, 7],

浏览 6提问于2022-02-14得票数 1

1回答

在应用pandas udf: IndexError后不能使用.toPandas()或.collect()

python、pandas、pyspark、user-defined-functions

我正在使用pandasUDF将标准的ML python库应用于pyspark DataFrame。在定义了模式并进行了预测之后，我得到了pyspark DF作为输出。现在，我想用这个预测数据帧做一些事情，例如，我尝试对列"weekly_forecast_1“中的所有值进行求和。当我应用.collect()或.toPandas()方法时，在.fit()中得到以下错误 IndexError: too many indices for array:array is 0-dimensional, but 1 were indexed 每当我尝试将.collect()或.toPandas()方

浏览 33提问于2020-11-24得票数 0

1回答

从PySpark中的复杂列中提取值

apache-spark、pyspark、apache-spark-sql

我有一个PySpark数据帧，它有一个复杂的列，请参考下列值： ID value 1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在PySpark dataframe中添加一个新列，它基本上将它转换为一个字符串列表。如果Label为null，则字符串应包含value；如果label不为null，则string应为label:value。因此，对于上面的示例数据帧，输出应如下所示： ID

浏览 0提问于2021-02-09得票数 0

1回答

将列值展开/爆炸为多行

pyspark

我有如下表所示的数据集。(此数据集将在不同的列中每个ID具有相同数量的元素，但是元素的数量因ID而异。) 我想把这个数据集转换成下表。也就是说，我希望‘爆发’/将每个ID的单元格值展开为多个行，并保留实际的列。现在，我尝试用以下脚本炸开这些列： from pyspark.sql import functions as F df = df.withColumn("1", F.explode(F.split(col1, ",")))\ .withColumn("2", F.explode(F.split(col2

浏览 1提问于2021-10-14得票数 1

回答已采纳

2回答

匹配和比较中的字符串

python、pandas

我有两个数据帧。使用系统上某些字段的当前值的API来提取值。另一个有这些字段的实际当前值。例如:系统上的名称和纸上的名称。我已经在公共列中合并了这两个名称，但现在正在尝试比较Python上的名称，看看它们是否近似匹配和/或它们是否需要更新。有什么办法我能做到吗？我相信这可以在excel上使用isnumber(搜索(.))来完成。大小写不敏感，并可能考虑缩写(我可以做字典？)用于比较文本字符串关于我的dataframe外观和我想要的结果的示例： <style type="text/css"> .tg {border-collapse:collapse;bor

浏览 1提问于2018-10-04得票数 0

回答已采纳

1回答

使用数据帧调用Map函数

python、dataframe、pyspark

浏览 0提问于2019-08-04得票数 0

回答已采纳

2回答

如何在火花放电中创建空结构？

pyspark

我正试图在pyspark中创建空的struct列。对于数组，这可以工作。 import pyspark.sql.functions as F df = df.withColumn('newCol', F.array([])) 但这给了我一个错误。 df = df.withColumn('newCol', F.struct()) 我也看到了类似的问题，但对于scala来说，这并不能真正帮助我。

浏览 4提问于2021-09-21得票数 2

1回答

如何在pyspark中找到列表中最常用的元素？

list、pyspark、frequency

我有一个包含两列的pyspark dataframe，ID和Elements。"Elements“列中有list元素。它看起来像这样， ID | Elements _______________________________________ X |[Element5, Element1, Element5] Y |[Element Unknown, Element Unknown, Element_Z] 我想用‘element’列中最频繁的元素组成一个列。输出应如下所示： ID | Elements

浏览 6提问于2021-10-07得票数 1

1回答

如何将csv/xls文件中两列的数据读取到两个变量中，并使用python将它们用于程序

python、excel、csv

如何将csv/xls文件中两列中的数据读取到两个变量中，以便使用Python在程序的后面部分使用它们？通常，我希望从下面的变量a和b的excel文件中选取数据，并给出两列中所有行的变量的比率： from difflib import SequenceMatcher def similar(a, b): return SequenceMatcher(None,a ,b).ratio()

浏览 1提问于2016-04-02得票数 3

1回答

如何将numpy数组存储为PySpark DataFrame中的新列？

numpy、apache-spark、pyspark、apache-spark-sql、numpy-ndarray

我已经从np.select获得了一个numpy数组，我希望将其存储为PySpark DataFrame中的一个新列。我怎么能这么做？ from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() pdf = pd.DataFrame({'a': [1,2,3], 'b': ['abc', 'cde', 'edf']}) df_data = spark.createDataFrame(pdf, schema='

浏览 6提问于2022-05-25得票数 1

2回答

如何创建一个数组列，它是两个或多个数组列的总和？

pyspark、apache-spark-sql

我的pyspark中有几个array类型列和DenseVector类型列。我想要创建这些列的元素级添加的新列。下面是总结问题的代码：设置： from pyspark.sql import SparkSession from pyspark.sql.functions import col from pyspark.ml.functions import vector_to_array from pyspark.ml.linalg import VectorUDT, DenseVector from pyspark.sql.functions import udf, array, lit s

浏览 22提问于2021-12-29得票数 1

回答已采纳

1回答

PySpark:如何创建包含日期范围的DataFrame

python、dataframe、date、pyspark、apache-spark-sql

我正在尝试创建一个包含日期范围的单一列的PySpark数据框架，但是我一直收到这个错误。我也尝试将它转换为int，但我不确定您是否应该这样做。 # Gets an existing SparkSession or, if there is no existing one, creates a new one spark = SparkSession.builder.appName('pyspark-shellTest2').getOrCreate() from pyspark.sql.functions import col, to_date, asc from pyspar

浏览 20提问于2022-12-02得票数 0

1回答

AWS pySpark:将字符串列拆分为新的整数数组列

amazon-web-services、pyspark、etl、aws-glue

我试图使用Glue和pySpark在AWS上执行ETL工作，但不幸的是，我对此非常陌生。在大多数情况下，我没有任何问题，使用胶水动态数据，以执行应用程序和一些其他的转换，我必须执行。但是，我面临一个特定列的问题，必须将其从字符串转换为整数数组。在这个列value中，我们将数据类型设置为string，它实际上是一个转换为string并由空格分隔的整数数组，例如，value列中的数据条目看起来类似于'111 222 333 444 555 666'。我必须将该列转换为整数数组，以便将数据转换为'[111, 222, 333, 444, 555, 666]'。如何

浏览 5提问于2020-04-20得票数 2

回答已采纳

2回答

如何迭代两列并逐一匹配

python、pandas、loops、dataframe、sequencematcher

假设我有两个excel文件，每个文件都包含一列名称和日期。 Excel 1： Name 0 Bla bla bla June 04 2018 1 Puppy Dog June 01 2017 2 Donald Duck February 24 2017 3 Bruno Venus April 24 2019 Excel 2： Name 0 Pluto Feb 09 2019 1 Donald Glover Feb 22 2020 2 Dog Feb 22

浏览 2提问于2020-06-02得票数 0

回答已采纳

1回答

如何在Python中比较两个字符串(非英语)之间的相似性

python、string、unicode、distance、jaro-winkler

我想找出两个字符串示例之间的相似性 string1 = "One" string2 = "one" 我希望答案在0和1之间。对于上面两个字符串，我们得到1。现在我使用"Jellyfish"，这是python中的一个模块，它有jaro_distance()函数。但缺点是我只能比较只包含英语单词和其他特殊字符的两个字符串。但是我想用其他语言来比较两个字符串，比如旁遮普语 string1 = "ਬੁੱਧਵਾਰ" string2 = "ਬੁੱਧਵਾ" 我尝试了相同的jaro_distance()函数，但是 >>

浏览 22提问于2021-09-29得票数 0

回答已采纳

1回答

将SequenceMatcher应用于DataFrame

python、pandas

我是熊猫和Python的新手，所以我希望有人能帮我解决这个简单的问题。我有一个大型的dataframe m，它有几百万行和七列，包括一个ITEM_NAME_x和ITEM_NAME_y。我希望比较使用ITEM_NAME_x和ITEM_NAME_y的SequenceMatcher.ratio()，并将一个新列添加到dataframe和结果中。我尝试了几种方法，但不断地遇到错误： >>> m.apply(SequenceMatcher(None, str(m.ITEM_NAME_x), str(m.ITEM_NAME_y)).ratio(), axis=1) Traceback

浏览 6提问于2013-12-05得票数 1

回答已采纳

1回答

对相似散列值进行分组

python、image、hash、grouping、imagehash

我将图像更改为散列值，并尝试将具有相似散列值的图像分类到同一组中。举个例子。 import imagehash # img1, img2, img3 are same images img1_hash = imagehash.average_hash(Image.open('data/image1.jpg')) img2_hash = imagehash.average_hash(Image.open('data/image2.jpg')) img3_hash = imagehash.average_hash(Image.open('data/ima

浏览 6提问于2021-11-25得票数 0

2回答

如何比较python中的这两个字符串？

python、string

在爬行RSS提要时，我不希望将重复项添加到我的列表中。问题是，我的if title not in mylist行没有检测到一些复制项，因为它们略有不同。不过，这两条新闻基本上是一样的。看看这两个。 "Kom igjen, norsk ungdom, de eldre trenger oss!"和 "Kom igjen norsk ungdom, de eldre trenger oss" 正如你所看到的，第一个在Kom igjen后面有逗号，第二个没有，在末尾有一个感叹号。由于没有其他唯一的id使单个项目唯一，我不知道如何检测像上面这样的重复项。

浏览 1提问于2015-06-15得票数 4

回答已采纳

1回答

对于Scala，是否有相当于Python的difflib.SequenceMatcher

scala、text、nlp

在Scala中有实现difflib.SequenceMatcher的东西吗？我需要将我的一些生产代码从Python转换成Scala，但不想使用会改变SequenceMatcher上一个输出的东西。任何建议都是非常感谢的。

浏览 0提问于2017-09-12得票数 2

回答已采纳

1回答

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

python、apache-spark、apache-spark-sql、pyspark、pyspark-sql

下面是创建pyspark.sql DataFrame的代码 import numpy as np import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]), columns=['a','b','c']) sparkdf = sqlContext.createDataFrame(df, samplingR

浏览 0提问于2015-08-11得票数 6

1回答

Python每个值的SequenceMatch列和返回的衣柜匹配

python、string、pandas、string-comparison

我有两个DataFrame对象，每个对象包含2列字符串数据。我需要比较列a和b与c和d，然后根据最高的匹配比率合并两个DataFrame对象。 DF1 DF2 a b c d apple paster doser ankle bac bur are bun sit sign and la

浏览 3提问于2017-05-11得票数 4

1回答

pyspark将数组类型的列拆分成多列

python-3.x、pyspark

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？数据帧的模式 root |-- person: string (nullable = false) |-- recommendation: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- ID: string (nullable =

浏览 61提问于2021-07-11得票数 0

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

apache-spark、pyspark、apache-spark-sql

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame 注意:我之所以使用pyspark列，是因为我从我使用的库(远大期望)中获得了它的输入。 @column_condition_partial(engine=SparkDFExecutionEngine) def _spark(cls, column, ts_formats, **kwargs): return column.isin([3]) # need to replace the abov

浏览 4提问于2021-11-19得票数 0

回答已采纳

2回答

如何将pyspark dataframe列转换为numpy数组

python、numpy、apache-spark、pyspark

我正在尝试将一个大约有9000万行的pyspark dataframe列转换成一个numpy数组。我需要数组作为scipy.optimize.minimize函数的输入。我尝试过转换为Pandas和使用collect()，但这些方法非常耗时。我是PySpark的新手，如果有更快更好的方法，请帮助我。谢谢这就是我的数据帧的样子。 +----------+ |Adolescent| +----------+ | 0.0| | 0.0| | 0.0| | 0.0| | 0.0| | 0.0| | 0.0|

浏览 138提问于2019-09-30得票数 3

回答已采纳

1回答

PySpark DataFrame:标记某些列值发生更改的行

python、pyspark、apache-spark-sql、pyspark-sql

我有一个包含'people‘和'timestamp’列的PySpark DataFrame (加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。我想对“人物”的所有行进行分组，其中“时间戳”的差异不超过“阈值”值(例如5分钟)。你知道我如何在PySpark中实现这一点吗？最好是以DataFrame作为结果？感谢你的想法！

浏览 35提问于2018-08-30得票数 0

回答已采纳

1回答

NLTK库中的Bleu_score

python、nltk、bleu

我刚开始使用nltk图书馆。我想找到两个最相似的字符串。在这样做时，我使用了“bleu_score”，如下所示： import nltk from nltk.translate import bleu from nltk.translate.bleu_score import SmoothingFunction smoothie = SmoothingFunction().method4``` C1 = 'FISSEN Ltds' C2 = 'FISSEN Ltds Maschinen- und Werkzeugbau' C3 = 'V.R.P. B

浏览 6提问于2022-09-24得票数 0

回答已采纳

2回答

如何在不完全匹配的情况下合并熊猫DF？

pandas、dataframe

我试图根据x列与y列的精确匹配和name列上一定程度的部分匹配来合并/加入company和name数据格式。除了查看SequenceMatcher(None, x_name, y_name).ratio()返回的值(在我的例子中，这些值总是高于.8 )之外，我没有尝试太多值得提及的内容。 x = pd.DataFrame([{'id': 1, 'name': 'Robert Jackson', 'company': 'Test inc.', 'tenure': 6},

浏览 3提问于2021-03-03得票数 1

回答已采纳

2回答

PySpark:如何在列中或列中分组

group-by、pyspark

我想在PySpark中进行分组，但是这个值可以出现在多个列中，所以如果它出现在所选列中的任何一列中，那么它将被分组。例如，如果我将这个表放在Pyspark中：我想总结一下每个身份证的访问和投资，结果是：请注意，ID1是前三列中有ID1的行0、1、3的总和，ID1访问= 500 + 100 + 200 = 800。ID2是行1、2等的总和。为了简单起见，我的例子是一个简单的dataframe，但在实际中是一个大得多的df，有很多行和变量，还有其他操作，而不仅仅是"sum“。这对熊猫来说是不可能的，因为它太大了。应该在PySpark OBS2:我用熊猫打印了表格

浏览 4提问于2019-09-20得票数 1

回答已采纳

1回答

删除csv中的同名相似地址

python、excel、csv

所以我的csv数据是这样的： Restaurant Rating Address Birdman 5 18 Parc SCBD, Tower B, Lantai Ground, Jl. Jenderal Sudirman Kav 52 - 53 Bistecca 4 18 Parc SCBD, Tower C, Lantai Ground, Jl. Jenderal Sudirman Kav 52-53, SCBD, Jakarta Lake

浏览 19提问于2021-02-02得票数 0