PySpark:过滤掉所有列多于表头行的行_PySpark:过滤掉数据框中列值多次出现的行_PySpark -拆分所有列中的数组并合并为行 - 腾讯云开发者社区

python、csv、apache-spark、pyspark

True) 假设'input.csv‘文件包含以下数据： id, name, age2, Mike, 334, Sean, 40 我想过滤掉比标题包含更多列的行，并将其保存到不同的输出中，有点像这样(说明性地)： df2 = df.filter(condition1) #condition1 = rows which have more columns than目前，它只是缩小行以适合标题，而没有办法获得它。

浏览 19提问于2021-01-27得票数 0

1回答

使用Apache光束根据计数进行过滤

google-cloud-dataflow、apache-beam、dataflow

我正在使用Dataflow和Apache Beam处理一个数据集，并将结果存储在一个有两列的无头csv文件中，如下所示： A1,aA3,bA5,c ...我想根据以下两个条件过滤掉某些条目： 1-在第二列中，如果某个值出现的次数小于N，则删除所有此类行。例如，如果N=10和c只出现了7次，那么我希望所有这些行都被过滤掉。2-在第二列中，如果某个值出现的次数超过M，则只保留M中

浏览 55提问于2020-06-12得票数 1

1回答

Pyspark使用.filter()过滤掉空列表

python-2.7、filter、pyspark、pyspark-sql

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf: java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表的长度，并强

浏览 17提问于2017-02-24得票数 7

回答已采纳

1回答

是否只读取符合条件的.parquet文件的特定行？

python、pyspark、pyarrow

我正在处理一个充满.parquet文件的文件系统。其中一列'id‘唯一地标识了一台机器。我能够使用pyspark打开某个目录路径中的所有.parquet文件，然后从'id‘列创建一组值([])。我想打开所有其他文件中的所有其他行，其中'id‘与先前计算的集合中的一个值相匹配。我可以通过pyspark做到这一点，但它相当复杂，需要我实

浏览 27提问于2019-10-19得票数 1

回答已采纳

2回答

将熊猫数据转换为dict时的过滤器

python、pandas

我有这只熊猫的资料。25000 50days 2300.0 Python我有兴趣把每一行都变成一个白痴。np.nan}所以我使用了上面的函数和这个技巧但我得到的结果很奇怪'Language': 'Python'} {'Courses&

浏览 3提问于2022-07-20得票数 1

回答已采纳

1回答

如何在pyspark中对字符串numpy数组列进行筛选

python、apache-spark、pyspark、apache-spark-sql

我有一张火花放电数据foo = pd.DataFrame({'col':[['a_b', 'bad'],['a_a', 'good'],[]]})我尝试首先创建一个二进制列，然后对这个列进行筛选： from pyspark.sql import func

浏览 2提问于2021-04-08得票数 0

回答已采纳

3回答

如何在使用pyspark会话从本地文件读取时跳过一些行？

python、apache-spark、pyspark

我正在使用pyspark读取和处理本地.plt文件中的一些数据。下面是文件的外观： Geolife trajectoryAltitude is in Feet0,2,255,My Track,0,0,2,842137639.984094,116.319236,0,492,39744.2451967593,2008如上所示，我对前6行不感兴趣，我想要的是从第7行开始的行。所以我想使用spark session

浏览 11提问于2019-01-24得票数 2

回答已采纳

1回答

SQl选择出现在一个或多个集合中的数据

mysql、sql、sql-server

我有很多到很多的关系 1 10 <-- Desired (1 appears more than once) 3 <-- This result appears because 3 appears more than once above (即，返回code1中与11和17相关联的任何数据的所有行的单个

浏览 3提问于2014-12-12得票数 0

回答已采纳

1回答

Pyspark过滤器来自RDD的空行不起作用

python、lambda、filter、pyspark、rdd

我对spark和pyspark比较陌生我写这段代码是为了过滤掉RDD from文件中的空行我也试过了但是如果我使用plogfiles.filter(lambda x: x.split())，那么所有行中的尾随和前导空格都会被修剪掉我只想过滤掉空行。

浏览 8提问于2016-10-29得票数 3

2回答

作为记录数据出现在Pyspark数据库中的列名

python-3.x、pyspark、databricks、databricks-sql

我从Kaggle (Covid Live.csv)下载了一个示例csv文件，表中的数据在可视化代码中打开时如下所示(原始CSV数据仅为部分数据)#,"Country,from pyspark.sql.types import * df1 = spark.read.format("csv")FileStore/shared_uploads/m

浏览 9提问于2022-10-21得票数 0

2回答

当不满足条件时，自动筛选不会筛选任何内容

vba、excel、autofilter

我有一段VBA，它会自动过滤掉37列为空的所有行。它工作得很好，除非整个数据集的列中没有任何内容。然后，autofilter不会过滤掉任何行，而不是过滤掉标题行以外的所有行。这会导致添加注释“预期浪费到所有行，而不仅仅是那些在第37列中有值的行。代码如下。任

浏览 0提问于2018-03-23得票数 1

1回答

删除MySQL SELECT中的第一行而不使用偏移量

mysql、python-3.x、pyspark

我有一个吡火花SQL脚本，它应该删除SELECT中的第一行。如何删除吡火花选择中的第一行？scSpark.sql('SELECT `Course Name` AS title, `Discipline Code` AS discipline_code FROM books') 上面的查询包含表头我必须将标题保留在dataframe中，这样才能根据后面的spark中的</e

浏览 12提问于2022-06-05得票数 0

回答已采纳

1回答

按行切分Spark的DataFrame SQL (pyspark)

sql、pyspark、pyspark-sql

我有一个spark的Dataframe拼图文件，可以由spark读取，如下所示df.registerTempTable('temp_table') 我想按行对我的数据帧df进行切片(例如，相当于熊猫数据帧中的df.iloc[0:4000], df.iloc[4000:8000]等)，因为我想将每个小块转换为熊猫数据帧，df.sample(False, fract

浏览 5提问于2016-09-08得票数 4

1回答

使用多个窗口过滤PySpark数据的行

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

2||2018-09-01 20:17:00| 5|ts是时间戳的一列，var是感兴趣的变量的列。我正在寻找一个有效的方法，过滤掉所有的行，而不是在一个时间窗口。2| +-------------------+------+ 我能够使用一个udf和

浏览 1提问于2018-09-02得票数 0

回答已采纳

1回答

在火花表中追加聚合状态从循环开始

pyspark

在循环中的每一次迭代中，我过滤掉H列中带有特定字符串的所有行，然后计算G列上的一些聚合统计数据(结果为3个值)。我希望将所有的汇总计数保存在一个表中(行: CM、NCM、FP；列: POP、POP N、POP SN、POP QP)。from pyspark.sql import SparkSessionimport numpy as np import <e

浏览 0提问于2018-10-28得票数 0

回答已采纳

1回答

Mysql "where“在没有显式语句的情况下过滤掉空值

mysql、sql

我注意到这句话举个例子过滤掉列animals上包含Dog的所有行，但也过滤掉animals为null的所有行。

浏览 1提问于2015-07-24得票数 0

1回答

如何在React Table中为三个或更多嵌套列启用列排序？

javascript、reactjs、react-table

我使用React table构建了一个表，该表具有三个级别的嵌套列。我正在尝试在它上面实现列排序。下面是我使用的数据示例(从浏览器中的console.log()打印)： ? 我正在尝试使用这里发布的用于排序表数据的官方示例：https://codesandbox.io/s/github/tannerlinsley/react-table/tree/master/examplesfile=&#

浏览 69提问于2020-11-03得票数 0

3回答

如何在PySpark中读取文件并将其转换为Pandas Dataframe时将第一行作为标题

python、pandas、apache-spark、pyspark、apache-spark-sql

我正在用PySpark读取一个文件，并形成它的rdd。然后我将它转换成一个普通的dataframe，然后再转换成pandas dataframe。我遇到的问题是，我的输入文件中有标题行，我也想将其作为dataframe列的标题，但它们是作为附加行读取的，而不是作为标题。map(extract)) # Map to tuples df= df_normal.toPandas(

浏览 1提问于2016-01-17得票数 14

回答已采纳

1回答

正在读取csv文件

r、csv、import、dropbox

header = header, sep = sep, quote = quote, : 我尝试了header和row.names参数的各种变体

浏览 1提问于2013-07-09得票数 0

1回答

需要在将表头转换为列后为每个指定列获取最大值。

python、python-3.x、apache-spark、pyspark、pyspark-dataframes

我需要以下问题陈述的指针/线索 from pyspark.sql.types import * from pyspark.sql.functions import

浏览 0提问于2020-07-04得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云