pyspark dataframe检查字符串是否包含子字符串_检查数组是否包含子字符串？_检查DataFrame列是否仅包含字符串 - 腾讯云开发者社区

python、apache-spark、pyspark

我希望将列放在包含banned_columns列表中任何单词的pyspark中，并从其余列中形成一个新的dataframe。 banned_columns = ["basket","cricket","ball"] drop_these = [columns_to_drop for columns_to_drop in df.columns if columns_to_drop in banned_columns] df_new = df.drop(*drop_these) banned_columns的思想是删除以basket和cricket

浏览 0提问于2018-07-16得票数 1

回答已采纳

1回答

列中的搜索值

python-3.x、pyspark、pyspark-dataframes

我想搜索列是否包含值。 import pyspark from pyspark.sql import SparkSession from pyspark.sql.types import * import pandas as pd df_init = pd.DataFrame({'id':['1', '2'], 'val':[100, 200]}) spark = SparkSession.builder.appName('pandasToSparkDF').getOrCreate() mySchema

浏览 16提问于2020-09-29得票数 1

回答已采纳

5回答

火花放电中柱的比较

python、apache-spark、pyspark

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：输入: PySpark DataFrame，包含： col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5] 输出： col_4 = max(col1, col_2, col_3) = [3,2,5] 正如问题中所解释的那样，熊猫身上也有类似的东西。在PySpark中是否存在这样的方法，或者我是否应该将PySpark df转换为Pandas，然后执行这些操作？

浏览 7提问于2016-06-07得票数 29

回答已采纳

2回答

如何修改/转换数据框中的列？

python、apache-spark、pyspark、apache-spark-sql

我有一个使用以下命令创建的pyspark.sql.dataframe.DataFrame实例 dataframe = sqlContext.sql("select * from table"). 其中一列是“arrival_date”，其中包含一个字符串。如何修改此列，使其只取其中的前4个字符，并丢弃其余的字符？如何将此列的类型从字符串转换为日期？在graphlab.SFrame中，这将是： dataframe['column_name'] = dataframe['column_name'].apply(lambda x: x[:4] )

浏览 0提问于2016-08-20得票数 4

回答已采纳

3回答

如何根据列中字符串的长度有条件地从PySpark Dataframe StringType()列中删除字符的子字符串？

python、regex、pyspark、apache-spark-sql

我有一个PySpark Dataframe，它的StringType()列主要有15个字符。但是，有些行有11个字符。示例： df = +--------------+--------+ | code|state| +--------------+--------+ |'334445532234553'|wa | |'332452132234553'|mn | |'45532234553' |fl | |'679645532234553'|mo | |'91853553223

浏览 1提问于2019-04-20得票数 3

3回答

如何使withColumnRenamed查询泛化

python、pyspark、azure-databricks

我有两个清单 List1=['curentColumnName1','curentColumnName2','currentColumnName3'] List2=['newColumnName1','newColumnName2','newColumnName3'] 它们是包含所有列的dataframe df。我想要检查是否在dataframe中存在列'curentColumnName1，如果是，那么将其重命名为newColumnName1，如果所有列都存在于dataframe中，则需要

浏览 1提问于2022-08-18得票数 0

1回答

以行对象格式访问数组的元素并将它们连接起来- pySpark

python、pyspark

我有一个pyspark.sql.dataframe.DataFrame，其中一个列有一个Row对象数组： +------------------------------------------------------------------------------------------------+ |column | +----------------------------------------------------

浏览 1提问于2019-12-17得票数 0

3回答

当值与pyspark中的字符串的一部分匹配时，过滤df

python、apache-spark、pyspark、apache-spark-sql

我有一个很大的pyspark.sql.dataframe.DataFrame，我想保留(所以filter)保存在location列中的所有行，其中的URL包含预先确定的字符串，例如'google.com‘。我试过了： import pyspark.sql.functions as sf df.filter(sf.col('location').contains('google.com')).show(5) 但是这抛出了一个 TypeError: _TypeError: 'Column' object is not callable

浏览 2提问于2017-01-27得票数 66

回答已采纳

1回答

Pyspark管道在pandas数据帧上的应用

python、pandas、dataframe、pyspark

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

2回答

等价于Scala Dataset#transform方法的Pyspark变换方法

apache-spark、pyspark、apache-spark-sql、apache-spark-dataset

Scala有一个Dataset#transform方法，可以轻松地链接自定义的DataFrame转换，如下所示： val weirdDf = df .transform(myFirstCustomTransformation) .transform(anotherCustomTransformation) 我没有看到与transform方法等价的方法。是否有一种链接自定义转换的PySpark方法？如果不是，如何修补pyspark.sql.DataFrame类以添加transform方法？更新变换方法为 ( )。

浏览 0提问于2017-09-15得票数 7

回答已采纳

1回答

postgres regexp_substr的pyspark等效项无法提取值

python-3.x、postgresql、pyspark、apache-spark-sql

我正在尝试将我已有的一些postgres sql代码调整为pyspark sql。在postgres sql中，我使用regexp_substr函数解析出‘.5G’，如果它出现在productname列的字符串中。(我已经在下面包含了示例代码)。在pyspark方面，我尝试使用regexp_extract函数，但它只返回null。我将postgres中的regexp_replace函数的输出与pyspark进行了比较，结果返回了相同的值。所以问题一定出在regexp_extract函数中。我已经创建了一个示例输入dataframe和下面运行的pyspark代码。有没有人能告诉我我哪里做错了，

浏览 20提问于2021-01-26得票数 0

2回答

df.ColumnName如何取回列值，其中Columnname是来自Pyspark中的user

dataframe、pyspark

我的Pyspark代码如下： Product = results.where(results.ColumnName == ProductName ) Product.show() 我想要的ColumnName应该来自用户，比如： ColumnName = input("enter column name") 但我得到的错误如下： --------------------------------------------------------------------------- AttributeError Traceba

浏览 53提问于2020-08-16得票数 0

回答已采纳

1回答

将多个PySpark DataFrames与MergeSchema合并

python、pyspark、pyspark-dataframes

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

1回答

在Python类型提示( PySpark )中区分DataFrames和Pandas DataFrames (PyCharm)

python、pandas、pycharm、type-hinting

在PyCharm中，如果使用pyspark.sql.DataFrame代替pandas.DataFrame，类型提示似乎不会触发警告，反之亦然。例如，以下代码根本不会生成任何警告： from pyspark.sql import DataFrame as SparkDataFrame from pandas import DataFrame as PandasDataFrame def test_pandas_to_spark(a: PandasDataFrame) -> SparkDataFrame: return a def test_spark_to_pandas(b

浏览 0提问于2019-07-17得票数 14

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

apache-spark、pyspark、apache-spark-mllib、pca、apache-spark-ml

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。我能够将Hive表导入到： >>> from pyspark.sql import HiveContext >>> hiveContext = HiveContext(sc) >>> dataframe = hiveContext.sql("SELECT * FROM my_table") >>> type(dataframe) <class 'pyspark.sql.dataframe.D

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

齐柏林飞艇/星火: org.apache.spark.SparkException:无法运行程序"/usr/bin/"：error=13，无权限

apache-spark、pyspark、apache-zeppelin

我试图在Debian 9上使用Zeppelin 0.7.2和Spark2.1.1进行基本的回归。这两个齐柏林飞艇都安装在/usr/local/这意味着/usr/local/ zeppelin /和/usr/local/火星中。齐柏林飞艇也知道正确的SPARK_HOME。首先，我加载数据： %spark.pyspark from sqlalchemy import create_engine #sql query import pandas as pd #sql query from pyspark import SparkContext #Spark DataFrame from pyspar

浏览 2提问于2017-08-16得票数 1

回答已采纳

1回答

在CSV文件中处理JSON对象并保存到PySpark DataFrame

python、json、csv、pyspark、apache-spark-sql

我有一个CSV文件，它包含JSON对象以及其他数据，比如String，Integer。如果我尝试将文件读取为CSV，那么JSON对象将在其他列中重叠。 Column1, Column2, Column3, Column4, Column5 100,ABC,{"abc": [{"xyz": 0, "mno": "h"}, {"apple": 0, "hello": 1, "temp": "cnot"}]},foo, pine 101,XYZ,{"xyz&#

浏览 2提问于2020-09-23得票数 1

2回答

RDD[string]：将DataFrame转换为pyspark

python、apache-spark、dataframe、pyspark、apache-spark-sql

我想将pyspark.sql.dataframe.DataFrame转换为pyspark.rdd.RDD[String] 我将DataFrame df转换为RDD data data = df.rdd type (data) ## pyspark.rdd.RDD 新的RDD data包含Row first = data.first() type(first) ## pyspark.sql.types.Row data.first() Row(_c0=u'aaa', _c1=u'bbb', _c2=u'ccc', _c3=u'ddd&#

浏览 2提问于2016-02-17得票数 8

回答已采纳

1回答

电火花函数理解-转换因子

apache-spark、pyspark、azure-databricks

我在Apache，Databricks上用PySpark编写代码。我有一个DataFrame DF，DataFrame包含以下列A、B、C、D、E、F、G、H、I、J。以下内容验证了dataframe是否具有所需的列 has_columns(very_large_dataframe, ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J']) 要求将2.5的换算系数适用于F栏，即值2，换算

浏览 6提问于2022-01-14得票数 0

回答已采纳

1回答

从Pyspark中的数据帧列创建多行固定长度的行

pyspark

我的输入是pyspark中的dataframe列，它只有一个列DETAIL_REC。 detail_df.show() DETAIL_REC ================================ ABC12345678ABC98765543ABC98762345 detail_df.printSchema() root |-- DETAIL_REC: string(nullable =true) 对于每11个字符/字符串，它必须位于下一行的dataframe中，以便下游进程使用它。预期输出应在dataframe中为多行。 DETAIL_REC (No spaces lines

浏览 2提问于2022-03-04得票数 1

回答已采纳

1回答

to PySpark中的字符串方法

python、pyspark

我有一个用pyspark写的代码。我需要将其转换为字符串，然后将其转换为日期类型，等等。我找不到任何方法来将此类型转换为字符串。我尝试了str()和.to_string()，但都不起作用。我把代码放在下面。 from pyspark.sql import functions as F df = in_df.select('COL1') > type(df) > <class 'pyspark.sql.dataframe.DataFrame'> > df.printSchema() > |-- COL1: offset

浏览 7提问于2019-07-07得票数 0

回答已采纳

1回答

如何获取Pyspark dataframe的列是否包含NaN值？

python、pyspark

有没有一种有效的方法来检查Pyspark dataframe的列是否包含NaN值？现在我正在计算包含NaN值的行数，并检查这个值是否大于0。但是，我想知道这是否真的是一个好方法(理想情况下，程序应该在找到第一个NaN时停止检查)。这就是我要做的(我正在尝试检查列"col_w_nan“是否包含任何NaN值)： from pyspark.sql.functions import count, when, isnan number_of_nans = df.select(count(when(isnan(df.col_w_nan), "col_w_nan")))

浏览 21提问于2021-05-18得票数 0

1回答

使用检查点从胞表读取和更新同一个表

hive、pyspark、spark-checkpoint

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为： from pyspark.sql import SparkSession from pyspark.sql.functions import * df = spark.table("emp.emptable") 在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspark.sql.functions as F newdf = df.withColumn('LOAD_DATE', F.current_date()) 现在面临一个问题，当我试

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

Pyspark:从表中读取数据并写入文件

python、apache-spark、pyspark、azure-hdinsight

我正在使用HDInsight spark集群来运行我的Pyspark代码。我尝试从postgres表中读取数据，并将其写入如下所示的文件中。pgsql_df返回的是DataFrameReader而不是DataFrame。所以我无法将DataFrame写到文件中。为什么"spark.read“返回DataFrameReader。这里我漏掉了什么？ from pyspark.sql.types import * from pyspark.sql import SparkSession from pyspark import SQLContext from pyspark import S

浏览 40提问于2020-04-24得票数 0

回答已采纳

2回答

Dataframe空检查pyspark

pyspark

我正在尝试使用下面的代码检查Pyspark中的dataframe是否为空。 print(df.head(1).isEmpty) 但是，我得到了一个错误 Attribute error: 'list' object has no attribute 'isEmpty'. 我检查了我的对象是否真的是使用类型(Df)的dd，以及它是否是类'pyspark.sql.dataframe.Dataframe‘

浏览 207提问于2021-09-17得票数 0

回答已采纳

1回答

在DataFrame中子类是可能的吗？

python、python-2.7、oop、apache-spark、pyspark

Pyspark的文档显示了DataFrames是从sqlContext、sqlContext.read()和各种其他方法构建的。 (见) 是否可以将Dataframe子类并独立实例化它？我想将方法和功能添加到基类DataFrame类中。

浏览 3提问于2017-01-11得票数 8

回答已采纳

1回答

从PySpark中的复杂列中提取值

apache-spark、pyspark、apache-spark-sql

我有一个PySpark数据帧，它有一个复杂的列，请参考下列值： ID value 1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在PySpark dataframe中添加一个新列，它基本上将它转换为一个字符串列表。如果Label为null，则字符串应包含value；如果label不为null，则string应为label:value。因此，对于上面的示例数据帧，输出应如下所示： ID

浏览 0提问于2021-02-09得票数 0

2回答

如何在pyspark中打印具有特征名称的随机森林的决策路径？

python、apache-spark、pyspark

如何修改代码以打印包含功能名称而不仅仅是数字的决策路径。 import pandas as pd import pyspark.sql.functions as F from pyspark.ml import Pipeline, Transformer from pyspark.sql import DataFrame from pyspark.ml.classification import DecisionTreeClassifier from pyspark.ml.feature import VectorAssembler data = pd.DataFrame({

浏览 17提问于2018-08-01得票数 1

回答已采纳

2回答

Pandas DataFrame在str计数中的奇怪行为

python、regex、string、pandas

我有以下Pandas DataFrame： >>> sample_dataframe P 0 107.35 1 99.35 2 75.85 3 92.34 当我尝试以下操作时，输出如下： >>> sample_dataframe[sample_dataframe['P'].astype(str).str.count('.') == 1] Empty DataFrame Columns: [P] Index: [] 使用regex转义字符时，会发生以下情况： >>> sample

浏览 1提问于2019-11-11得票数 1

回答已采纳

1回答

使用Python的文本替换

python、pandas、dictionary、replace

我有两个数据集。一个包含文本描述，另一个包含两个列from_value和to_value的表。其思想是使用第二个数据集替换文本描述中所有出现的单词。我可以从第二个数据集中识别出4种类型的单词：简单的词替换：RPLCD -> REPLACED 多字串替换：ALT BRK -> ALTERNATE BREAK 具有特殊字符的单词：A/C -> AIRCRAFT或1-APU -> 1 APU 特殊字符删除:如果字符串中有%，我应该删除它；对于-也是如此，除非它在像1-APU这样的单词中(我们替换了整个单词) 我通过Gdrive上传了我的两个数据集

浏览 1提问于2018-06-05得票数 0

1回答

如何根据上一行的值来修改中的值？

python、dataframe、pyspark、duplicates

我有一个，它包含某些列值的副本，如下所示： showing deptDF +--------+----+------------+----------+--------+-----------+ |quantity|cost|participants|activity |category|id | +--------+----+------------+----------+--------+-----------+ |4 |10 |2 |skiing |outdoor |8589934592 | |4 |13 |3

浏览 1提问于2022-10-31得票数 0

1回答

了解列在PySpark数据帧中是否具有常量值的最快方法

dataframe、pyspark

我想断言PySpark DataFrame列的值是否在所有行中都是相同的。例如，拥有下一个DataFrame +----------+----------+ | A | B | +----------+----------+ | 2.0| 0.0| | 0.0| 0.0| | 1.0| 0.0| | 1.0| 0.0| | 0.0| 0.0| | 1.0| 0.0| | 0.0| 0.0| +----

浏览 10提问于2018-08-31得票数 2

回答已采纳

1回答

多列上的多聚合

python、apache-spark、pyspark

我使用Python在Pyspark框架中。我试图使用groupby在不同的列上应用不同的聚合。我有一个包含col1、col2、col3、col4列的df，我想做这样的事情：df.groupby("col1").sum("col2", "col3").avg("col4") 但是我发现了一个错误： "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/dataframe.py"，'DataFrame‘对象没有属性'avg’回溯(最近一次调用)：文件第1

浏览 4提问于2019-09-27得票数 0

回答已采纳

2回答

如何使用pySpark读取分区parquets的子示例？

python-3.x、apache-spark、pyspark、apache-spark-sql

假设为我提供了parquets数据的以下分区： . └── data/ ├── product=soda/ │ ├── <hash>_toto.parquet │ ├── ... │ └── <hash>.parquet └── product=cake/ ├── <hash>.parquet └── ... 我想使用PySpark读取数据，但不包括包含<hash>_toto.parquet的给定parquets列表。我可以读取整个分区数据，但我不知道如何排除其

浏览 8提问于2022-01-20得票数 1

回答已采纳

2回答

如何在PySpark中将df列[JSON_Format]转换为多个列？

python、apache-spark、pyspark、apache-kafka、spark-structured-streaming

我从Kafka那里得到了JSON格式的数据，并在PySpark中以DataFrame的形式读取了这些数据。在我从Kafka获得数据后，它显示为DataFrame格式： DataFrame[value: string] 但是，该值包含JSON / DICT格式。打印语句和返回： def print_row(row): print(row) pass testing.writeStream.foreach(print_row).start() Row(value='{col_1 =80.0, timestamp=2020-01-13T08:58:58.164Z}&#

浏览 24提问于2020-01-13得票数 0

1回答

isCheckPointed()为false

apache-spark、pyspark、google-cloud-dataproc

当我迭代地将500多个列添加到我的pyspark中时，我遇到了堆栈溢出错误。所以我包括了检查点。检查站帮不上忙。因此，我创建了下面的玩具应用程序来测试我的检查点是否正常工作。在这个例子中，我所做的就是一次又一次地复制原始列来迭代地创建列。我坚持，检查点和计数每10个迭代。我注意到我的dataframe.rdd.isCheckpointed()总是返回False。我可以验证检查点文件夹确实是在磁盘上创建和填充的。我在用哥库德的dataproc 这是我的代码： from pyspark import SparkContext, SparkConf from pyspark import Stora

浏览 1提问于2017-11-16得票数 1

回答已采纳

6回答

如何在Pyspark中定义一个空的dataframe并将其附加到相应的dataframe？

pyspark、pyspark-sql

所以我想从一个目录中读取csv文件，作为pyspark dataframe，然后将它们附加到单个dataframe中。而不是像我们在熊猫身上做的那样，在pyspark中得到替代方案。例如，在熊猫中，我们这样做： files=glob.glob(path +'*.csv') df=pd.DataFrame() for f in files: dff=pd.read_csv(f,delimiter=',') df.append(dff) 在Pyspark中，我已经尝试过了，但没有成功 schema=StructType([]) union_d

浏览 5提问于2017-04-10得票数 11

4回答

带子字符串的Pyspark列

pyspark、pyspark-sql

n00b..。如何用其本身的子字符串替换列？我正在尝试从字符串的开头和结尾删除选定的字符数。 from pyspark.sql.functions import substring import pandas as pd pdf = pd.DataFrame({'COLUMN_NAME':['_string_','_another string_']}) # this is what i'm looking for... pdf['COLUMN_NAME_fix']=pdf['COLUMN_NAME'].s

浏览 3提问于2017-10-14得票数 19

回答已采纳

2回答

使用spark连接器从snowflake自定义数据类型映射

python、pyspark、pyspark-sql、snowflake-cloud-data-platform

使用snowflake spark连接器从snowflake复制表时，默认行为是将结构化数据映射到spark字符串：https://docs.snowflake.net/manuals/user-guide/spark-connector-use.html#from-snowflake-to-spark-sql 例如，给定snowflake中的一个表： create table schema.table as select array_construct('1','a') as array_col, object_construct(

浏览 26提问于2019-05-30得票数 1

2回答

如何将pyspark sql DataFrame保存为xml格式

xml、python-2.7、pyspark、spark-dataframe、parquet

我以拼图格式存储了一个pyspark sql dataframe。现在，我还想将其保存为xml格式。我该怎么做呢？直接将pyspark sql dataframe保存在xml中或将拼图转换为xml的解决方案，对我来说什么都行。提前谢谢。

浏览 0提问于2016-06-21得票数 0

1回答

星火DataFrame如何区分不同的VectorUDT对象？

apache-spark、dataframe、pyspark、apache-spark-mllib、apache-spark-ml

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。 import pyspark import pyspark.sql.types as T import pyspark.sql.functions as F data = [0, 3, 0, 4] d = {} d['DenseVector'] = pyspark.ml.linalg.DenseVector(data) d['old_DenseVector'] =

浏览 1提问于2016-07-31得票数 7

回答已采纳

2回答

获取Spark dataframe中列的数组中项的索引

apache-spark、pyspark

通过执行以下操作，我可以根据数组字段中是否存在特定值来过滤Spark dataframe (在PySpark中)： from pyspark.sql.functions import array_contains spark_df.filter(array_contains(spark_df.array_column_name, "value that I want")).show() 有没有一种方法可以获得数组中找到项的位置的索引？它看起来应该存在，但我没有找到它。谢谢。

浏览 1提问于2018-12-13得票数 5

回答已采纳

1回答

动态使用date_sub函数过滤- PySpark

python、python-3.x、pyspark

我有一个应用程序，它将application_run_date作为字符串提供，我正计划将其转换为日期格式，并使用该应用程序将过滤器应用于数据格式。然而，我遇到了下面提到的一个问题。输入数据： raw_dataframe = spark.createDataFrame( [ (999,"2021-09-01","Buy_A",10), (999,"2021-09-02","Buy_B",15), (999,"2021-09-03"

浏览 3提问于2021-09-13得票数 1

回答已采纳

2回答

如何从PySpark DataFrame的列中分离特定的字符并使用它们形成新的列？

apache-spark、pyspark、apache-spark-sql

我对PySpark非常陌生，我真的很难理解如何使用它。在这种情况下，我必须将一个操作应用于PySpark DataFrame，该操作仅由column1组成，如下所示，并返回包含column1、column2和column3的新数据格式。 column1 column2 column3 'A123' '123' 'A' '321B' ---------> '321' 'B' 'C87

浏览 4提问于2020-11-05得票数 0

回答已采纳

1回答

PySpark:如何创建包含日期范围的DataFrame

python、dataframe、date、pyspark、apache-spark-sql

我正在尝试创建一个包含日期范围的单一列的PySpark数据框架，但是我一直收到这个错误。我也尝试将它转换为int，但我不确定您是否应该这样做。 # Gets an existing SparkSession or, if there is no existing one, creates a new one spark = SparkSession.builder.appName('pyspark-shellTest2').getOrCreate() from pyspark.sql.functions import col, to_date, asc from pyspar

浏览 20提问于2022-12-02得票数 0

2回答

使用PySpark DataFrame计数列中值列表的出现情况

python、dataframe、apache-spark、pyspark、apache-spark-sql

我有一个PySpark DataFrame，它有一个字符串列text和一个单独的list word_list，我需要计算在每个text行中出现多少个word_list值(可以多次计数)。 df = spark.createDataFrame( [(1,'Hello my name is John'), (2,'Yo go Bengals'), (3,'this is a text') ] , ['id','text'] ) word_list = ['is', '

浏览 1提问于2022-02-10得票数 1

回答已采纳

1回答

在python中查找列值是否包含在列表中

python-3.x

查找列中的值是否包含在python中的列表中我有一个数据帧'a‘和另一个作为列表'b’。我想找出列表'b‘中是否存在'a’值，如下所示。如果当前打印“找到”否则“找不到” a=['BUHARIREST','SAMCO','MCDONALS'] b=['BUHARIRESTAN','BUHARIHOTEL','SAMCOMUL'] a=pd.DataFrame(a) a['c']=np.NaN a['c']=a['c'

浏览 16提问于2019-05-26得票数 0

1回答

如何将字符串附加到pyspark中列出dataframe列

pyspark

我有一个包含一个列"value“的dataframe，它包含一个字符串列表，例如 id value 001 ["abc", "abd"] 002 ["xyz"] 003 [] 我需要在"value“后面追加另一个字符串，结果将是 id value 001 ["abc", "abd", "new"] 002 ["xyz", "new"] 003 ["new"] 有人知道如何在pyspark中实现这一点

浏览 11提问于2020-12-03得票数 1

3回答

如何将整个pyspark数据帧的大小写更改为下或上

python-3.x、apache-spark、pyspark、spark-dataframe、case-sensitive

我正在尝试对两个数据帧中的每一行应用pyspark sql函数散列算法，以确定差异。哈希算法是区分大小写的.i.e。如果列包含'APPLE‘和'Apple’被认为是两个不同的值，所以我想将两个数据帧的大小写都改为上或下。我只能实现dataframe标头，而不能实现dataframe values.Please帮助 #Code for Dataframe column headers self.df_db1 =self.df_db1.toDF(*[c.lower() for c in self.df_db1.columns])

浏览 41提问于2018-02-01得票数 6

回答已采纳

1回答

如何计算PySpark中嵌套列表中重复元素的个数？

python、pyspark、pyspark-dataframes

我在PySpark中有以下DataFrame： +----------+------------------------+ | id| codes_list| +----------+------------------------+ | FF10| [[1049, 1683], [108]]| | AB36| [[1507], [1005]]| | 8266|[[1049], [1049], [1049]]| +----------+------------------------+ 这是一个模式： r

浏览 28提问于2020-01-07得票数 2