为pandas数据帧的每一行随机抽样非空列值_为pandas DataFrame中的每一行选择非空列_如何消除pandas数据帧中列中每一行的重复值 - 腾讯云开发者社区

python、pandas、dataframe

我正在处理一个pandas数据帧，我希望在每一行中找到最远的非空值，然后颠倒这些值的顺序，并输出一个行值颠倒的数据帧，而不会在第一列中留下空值。本质上颠倒了列的顺序并将非空值向左移位。在： 1 2 3 4 5 1 a b c d e 2 a b c 3 a b c d 4 a b c 输出： 1 2 3 4 5 1 e d c b a 2 c b a 3 d c b a 4 c b a

浏览 43提问于2019-08-24得票数 2

1回答

Pandas dataframe.update包含键索引和列索引以进行更新

python、pandas、dataframe

我有df1，这是我使用的滚动数据集，每天更新。我有df2，它包含一个id_col和一个signal_col。我想基于通用的id_col值更新df1中的signal_cols。在sql中，它类似于： INSERT OVERWRITE TABLE my_table SELECT COALESCE(my_table_update.signal_col, my_table.signal_col) AS signal_col, my_table.* FROM my_table LEFT OUTER JOIN my_table_update ON my_table.id_col = m

浏览 3提问于2015-02-19得票数 0

2回答

如何合并多个pandas数据框列

python、pandas、dataframe、series

我有一个类似于下面看到的数据帧。 In[2]: df = pd.DataFrame({'P1': [1, 2, None, None, None, None],'P2': [None, None, 3, 4, None, None],'P3': [None, None, None, None, 5, 6]}) Out[2]: P1 P2 P3 0 1.0 NaN NaN 1 2.0 NaN NaN 2 NaN 3.0 NaN 3 NaN 4.0 NaN 4 NaN NaN 5.0 5 NaN

浏览 12提问于2019-01-07得票数 1

2回答

将空字符串替换为列的模式

python、pandas

我有以下pandas数据帧： df = pd.DataFrame([["hitesh","","HAIK"],["hitesh","red","ll"],["haikent","red","tt"],["","","HAIK"]]) 我正在尝试将数据帧的空字符串替换为每列的相应模式。我在努力 df= df.replace("" , df.mode()[0]) 但这只是用第一列模式替换了数

浏览 9提问于2017-03-10得票数 2

回答已采纳

1回答

Pandas None值与空数据帧

pandas、dataframe、nonetype

对于pandas dataframe中的无数据，我有两个结果不同的查询。第一个查询： with self.connection as conn: query = f"""SELECT current_client_name, client_phone_number, profile, effective_date, effective_time, client_details.telegram_id, telegram_reference

浏览 11提问于2021-03-31得票数 0

回答已采纳

6回答

计数星点DataFrame中的非空值数。

scala、apache-spark、apache-spark-sql、count、null

我有一个包含一些列的数据框架，在进行分析之前，我想了解数据框架有多完整。因此，我希望过滤数据帧，并为每一列计数非空值的数量，可能会返回一个dataframe。基本上，我试图实现与用表示的结果相同的结果，但使用Scala而不是Python。说你有： val row = Row("x", "y", "z") val df = sc.parallelize(Seq(row(0, 4, 3), row(None, 3, 4), row(None, None, 5))).toDF() 如何总结每个列的非空值数，并返回一个具有相同列数的数据，并返回一个有

浏览 5提问于2017-01-20得票数 7

回答已采纳

1回答

Python & Pandas:为什么在我的类中创建Dataframe是空的？

python、pandas、dataframe、class

我有这个功能 import pandas as pd class Func: def __init__(self, df): self.df = pd.DataFrame() 当我想用pandas.DataFrame.filter将值复制到类的数据帧中时，它始终保持为空： mydf = Func(dftrain.filter(['x', 'y2'])) print(mydf.df) 结果总是：空DataFrame列：[]索引：[] 但是，如果我使用的数据框架不是在我的类中，它就会工作，如下所示： mydf = d

浏览 4提问于2022-06-05得票数 -3

2回答

作为DataFrame列的Scipy稀疏矩阵

python、pandas、dataframe、scipy、sparse-matrix

我正在开发基于pandas DataFrame对象的工具。我希望将scipy稀疏矩阵保留为DataFrame的列，而不是将其按行转换为dtype('O')的列表/数值数组。下面的代码片段不起作用，因为pandas将矩阵视为标量，并建议添加索引。当在矩阵中的行索引上提供pd.RangeIndex时，矩阵将对数据帧中的每一行重复(因为pandas认为它是标量)。 ma = scipy.sparse.rand(10, 100, 0.1, 'csr', dtype=np.float64) df = pd.DataFrame(dict(X=ma)) 这是可行的： df

浏览 12提问于2016-09-12得票数 4

回答已采纳

6回答

如果pandas DataFrame中的另一列不为null，则用另一列替换该列

python、pandas、dataframe

我正在使用Pandas处理数据帧，其中如果另一个列的值不为空，则必须替换列。我的数据帧是这样的： v_4 v5 s_5 vt_5 ex_5 pfv pfv_cat 0-50 StoreSale Clothes 8-Apr above 100 FatimaStore Shoes 0-50 StoreSale Clothes 8-Apr 0-50 DiscountWorld Clothes 51-100 Cl

浏览 101提问于2019-10-09得票数 9

1回答

将熊猫数据中的最后2个数值逐行替换为NAN的

python-3.x、pandas、numpy、dataframe

我的每一行数据中的最后两个实数都是用误差测量的。我想用np.NAN替换它们。实数的数目随行而异(也就是说，每行已经有不同数量的NAN)。列标题表示测量号，索引是一个在单元格中的实验trial.Values，等于测量读数。有些试验的测量读数比其他的要多；因此，有些行的测量读数比其他的多。下面的代码创建了一个类似于我的数据框架。 import pandas as pd import numpy as np data = np.array(([1,2,3,4,5,2,np.NaN], [2,2,3,2,3,np.NaN,np.NaN],[4,4,5,1,np.NaN,np.

浏览 0提问于2018-04-24得票数 2

回答已采纳

1回答

为pandas数据帧的每一行随机抽样非空列值

python、pandas、dataframe、random、sample

对于每一行，我想随机抽样k个对应于非空值的列索引。如果我从这个数据帧开始， A = pd.DataFrame([ [1, np.nan, 3, 5], [np.nan, 2, np.nan, 7], [4, 8, 9] ]) >>> A 0 1 2 3 0 1.0 NaN 3.0 5.0 1 NaN 2.0 NaN 7.0 2 4.0 8.0 9.0 NaN 如果我想为每一行随机采样2个非空值，并将它们更改为值-1，一种方法如下： B = A.copy() for i in A.index: s = A.l

浏览 7提问于2021-07-30得票数 0

回答已采纳

2回答

获取熊猫数据帧的每个列中最后一个非NaN值的行索引。

python-2.7、pandas、numpy、scipy、nan

如何为熊猫数据帧的每一列返回最后一个非nan值的行索引位置，并将这些位置作为熊猫数据返回？

浏览 3提问于2014-08-18得票数 5

回答已采纳

2回答

删除pandas 0.23+中的空列

python、pandas

在早期版本的pandas中，您只需使用以下命令即可删除空列： df.dropna(axis='columns') 然而，dropna在后来的构建中已经被贬低了。现在如何从数据帧中删除多个(而不是专门索引)空列？

浏览 1提问于2018-08-11得票数 15

回答已采纳

1回答

传递空列表时，使用statistics.mean()返回NaN

python、pandas

不确定这是不是一个合适的问题，但我想知道什么是最好的(最简单的？)做到这一点的方法是。当我向Python语言中的statistics.mean()函数传递空列(或字符串)时，我希望返回一个NaN(而不是数字)值。所以，就像这样： variable_mean = statistics.mean(data[column_name]) 我希望variable_mean变量在pandas数据帧有数据点时等于平均值，当它为空时等于NaN (我有一个for循环，每次迭代都有不同行数的数据帧，有时没有行)。也许我只需要这样做： if len(data) == 0: variable_name =

浏览 10提问于2019-11-13得票数 0

回答已采纳

1回答

用现有数据帧填充Pandas Dataframe，但保留形状

python、pandas、dataframe

我使用以下命令创建了一个Pandas数据帧： df = pd.DataFrame(index=np.arange(140), columns=np.arange(20)) 这给了我一个140行20列的空数据帧。我有另一个有120列和20行的数据帧，我称之为df2。我想添加这些行来填充df，但仍然保留140x20的形状。当我使用：newdf = df.append(df2)时，我得到了一个有280行和20列的数据帧。

浏览 18提问于2021-01-21得票数 0

回答已采纳

1回答

列的和: Pandas .sum()返回0.0

python、pandas、dataframe、csv、sum

我正在尝试使用.sum()和pandas对数据帧中的列的值进行求和。但是，对于数据类型为“float64 64”的所有列，pandas将返回“0.00”。对于设置为整数的列，它似乎工作得很好。这是我到目前为止尝试过的： df = pd.read_csv(csv_file, delimiter=';') df = df.apply(pd.to_numeric, errors='coerce').fillna(0) *#I want to convert values to numeric* print(df['UE'].dtype) *#I p

浏览 6提问于2021-03-17得票数 0

1回答

从稀疏数据集中删除列和行

python、pandas

我有一个包含许多空值的稀疏Pandas数据帧，我希望对其进行过滤，以便在最终数据集中只保留具有超过10个浮点型条目的行和列。我尝试使用现有的代码片段，但似乎不起作用： df.drop([col for col, val = df.count(axis=1, numeric_only='float') if val < 10], axis=1, inplace=True) 谁能告诉我在我的数据帧中删除稀疏列的最好方法是什么？

浏览 16提问于2020-06-29得票数 3

4回答

追加到Pandas中的空DataFrame？

python、pandas

是否可以附加到不包含任何索引或列的空数据框？我尝试过这样做，但最后总是得到一个空的数据帧。例如： import pandas as pd df = pd.DataFrame() data = ['some kind of data here' --> I have checked the type already, and it is a dataframe] df.append(data) 结果如下所示： Empty DataFrame Columns: [] Index: []

浏览 1提问于2013-05-17得票数 268

回答已采纳

1回答

在pandas中统计数据框中每一列的值变化

python、pandas、dataframe

在pandas中，有没有什么巧妙的方法来计算数据框中每一列的值变化的次数？我不想遍历每一列，例如： import pandas as pd frame = pd.DataFrame({ 'time':[1234567000,1234567005,1234567009], 'X1':[96.32,96.01,96.05], 'X2':[23.88,23.96,23.96] },columns=['time','X1','X2']) print(frame) chang

浏览 0提问于2017-07-11得票数 2

回答已采纳

2回答

检查当前行中的所有列值是否小于pandas数据帧中的所有前一行

python、pandas

有没有办法检查当前行中的所有列值是否小于pandas数据帧(整个数据帧)中所有前一行(直到当前行)中的相应列值，并相应地创建一个值为1或0的新列？

浏览 0提问于2017-06-15得票数 1

1回答

使用pandas dataframe创建年度预测数据

python、dataframe

我最近开始使用pandas数据透视表功能，并希望在输出中添加额外的数据。我现在有下面的数据框数据帧：我想在最后一列旁边多加一列，这将给出12个月的费用预测，即平均*12。结果数据帧：提前感谢同行python专家的帮助。

浏览 2提问于2020-07-31得票数 0

1回答

如何在pandas dataframe中创建布尔型空列？

python、pandas、boolean

我想向给定的pandas数据帧添加一个空的布尔列。现在我已经这样做了(df是我的数据帧)： <code>A0</code> 然后，我的专栏如下所示： <code>A1</code> 这并不表示某些值可能丢失，并且该列实际上是空的。在pandas数据帧中获取boolean类型的空列是不可能的吗？

浏览 9提问于2019-03-28得票数 4

1回答

Pandas -如何在返回行时排除空白单元格

python、pandas、search、null、xlsx

我刚刚开始使用python和pandas，我想搜索一个数据帧，并根据药物名称返回一行，返回所有非空的列单元格。我有这个： import pandas as pd safety = pd.read_excel("safety.xlsx") searchterm = input("Enter drug name...") print (safety.loc[safety['Drug_name'] == searchterm]) 这将返回药物和所有列，甚至是空白列。例如，每一行是一种药物，每一列是一个标准，每种药物可以有一些标准的信息，但不是所有

浏览 24提问于2021-04-24得票数 0

回答已采纳

1回答

r:操作数据，使具有相同值的列以特定方式组合

r、dataframe

我有一个数据帧，其中每一列都由0和另一个数字组成。例如： ? 我想要操作数据帧，以便包含相同其他数字的列成为一列，其中如果另一个数字出现在每行中，则该值与另一个数字相同，否则它将变为零。例如，我希望上面的数据帧看起来像这样 ..1 ..2 ..3 1 2 3 0 2 0 0 0 0 1 0 0 数据帧的第一行是1，因为原始数据帧的第一行中的值都是1。第一列的第二行是0，因为该行中有1和0。以下是一些可重现的数据： structure(list(...1 = c(1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0,

浏览 9提问于2021-01-20得票数 0

回答已采纳

1回答

pandas idxmax返回所有具有最大值的列

python、pandas、dataframe、max

我有一个数据帧，如下所示： column_1 column_2 2 3 6 4 5 5 . . . 我想为上述数据帧的每一行返回在该行中具有最大值的列的名称；例如，对于第一行，我想返回' column _2'，对于第三行，它将返回两个列名，因为它们都具有相同的值。我试图使用Pandas的idxmax函数来实现它；但是这个函数只返回第一次出现的情况，而忽略了其余的可能性；就像上面第三行的例子一样，idxmax只返回'column_1'，而不是'column_1‘，'column_

浏览 19提问于2021-07-02得票数 1

回答已采纳

1回答

带有最后一个非空值及其索引的条件的Pandas ()

python、pandas、dataframe、conditional-statements

我现在正在处理的代码有问题，所以基本上我得到的是一个数据帧，其中的列以pd.Dataframe(2，2，2，0，0，0，0，0，2，0，2)的形式填充了数字。所以我想要的输出是这个。所以我在想，是否有办法做到这一点： df.apply(lambda x: x * (index(x) - index( lastnotnull(x) ) ) if x!=0 else 0, axis=1) 任何想法都可以，但最好是经过优化的。 lastnotnull并不是一个真正的函数，它只是一种解释我在想什么的方式。所以基本上我想要的是，在每一行中，它检查它是否为空，如果它是0，否则它乘以(先前空值的数量+1)

浏览 0提问于2020-12-17得票数 0

2回答

如何将Python Dataframe转换为列表列表？

python、pandas、casting

我有一个尺寸为21392x1972的Python数据帧。我想要完成的是将数据帧转换为列表列表，这样我的数据帧的第一列是长列表中的第一个列表，数据帧的第二列是具有一个长列表的第二个列表，依此类推。我尝试使用tolist()将数据帧转换为列表列表。现在发生的情况是，我的数据帧的每一行都变成了长列表中的一个列表。但是，我想要完成的是，数据框的每一列都应该成为长列表中的一个列表。我刚开始使用Pandas和Python，所以在这方面的任何帮助都是非常感谢的。干杯! import pandas as pd mydataset = pd.read_csv('final_merged_data.c

浏览 21提问于2019-01-18得票数 0

回答已采纳

2回答

pyspark数据帧中所有列的总计数为零

python、dataframe、pyspark

我需要找出pyspark dataframe中所有列中0的百分比。如何在数据帧中找到每一列的零计数？附言:我尝试过将数据帧转换为pandas数据帧，并使用了value_counts。但是，对于大型数据集来说，推断它的观察值是不可能的。

浏览 0提问于2018-08-20得票数 4

1回答

NaT上的groupby优先与groupby中的NaN不同

pandas

我有一个数据帧，我想首先使用groupby方法来收集每列的第一个时间戳。 import pandas as pd from pandas import DataFrame import datetime as dt ts1 = dt.datetime.now() ts2 = dt.datetime.now() ts3 = dt.datetime.now() DFdate=DataFrame([{'timestamp1':ts1,'ID':'A'},{'timestamp2':ts2,'ID':'A

浏览 0提问于2015-07-13得票数 2

2回答

pandas dataframe中每行的最小值

python、pandas、dataframe

我正在尝试计算pandas数据帧中每一行的最小值。我想添加一个列，用于计算最小值并忽略"NaN“和"WD” 例如 A B C D 1 3 2 WD 3 WD NaN 2 应该会给我一个新的专栏，比如 Min 1 2 我尝试了df.where(df > 0).min(axis=1)和df.where(df != "NaN").min(axis=1)，但没有成功

浏览 9提问于2021-01-12得票数 0

回答已采纳

1回答

在蟒蛇的熊猫中，我如何将离群点放在第一轴上？

python、pandas

我有这么多行的数据帧和每一行2000列的示例。每一行由一个产品组成，每一列由可能销售的分布中的一个点组成。如何在2.5%和97.5%的行之外删除每个分发(跨列)的所有点？我想取axis=1的平均值，而不需要数据中的异常值。我需要为每一个产品(行)做这件事。以下是一些随机数据 import numpy import pandas cols = np.random.rand(10, 2000) df = pd.DataFrame(cols) 我试过： df.quantile(.025，.975，axis=1)，但这把产品作为栏，只有2.5%和97.5%的价值。

浏览 2提问于2022-09-02得票数 0

回答已采纳

4回答

Pyspark:有没有等同于pandas info()的方法？

python、pandas、apache-spark、pyspark

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

1回答

如何从dataframe中的每一列中移除空值，并根据键在一行中追加非空列值

pandas、dataframe、pandas-groupby

我使用pandas和pandasql验证数据b/w 2个不同的数据源。在验证之后，我将不匹配的数据存储在新的数据帧中。问题是，对于列关键字，在每一行中，我将不匹配的列作为非空值，而其他列为空值。 enter image description here我试过使用df.stack()，但没什么效果。对于给定的键，我希望所有不匹配的列都在一行中，而不是每行中包含多个不匹配的列。实际的数据帧表示在图像中。我提供了一个示例：(Bi，Bj) ->对(预期的，实际的)列值。 sample = pd.DataFrame(data = {'A':[10,10,10] , '

浏览 8提问于2019-06-13得票数 0

回答已采纳

1回答

Python3 -返回包含行级错误的丢失数据的CSV

python-3.x、pandas、csv

Python新手。我正在导入一个CSV，如果有任何数据丢失，我需要返回一个带有附加列的CSV，以指示哪些行缺少数据。我的同事建议我将CSV导入到一个数据帧中，然后创建一个带有"Comments“列的新数据帧，在其中填充对目标行的注释，并将其附加到原始数据帧中。我陷入了使用与"dfinput“匹配的正确行数填充新的dataframe "dferr”的步骤。我搜索过"pandas csv return error column where data is missing"，但没有找到任何与创建标记坏行的新CSV相关的内容。我甚至不知道提出的方法是不是最好

浏览 14提问于2019-05-28得票数 0

回答已采纳

1回答

如何将列表/数组中的列填充到只有列名的空Pandas数据帧中

python、pandas、dataframe

我有一个包含多个列名的数据帧。当我获得每一列的数据时，我必须创建行。我没有在一个地方提供所有的行数据。当我获得特定行中某列的数据时，我将填充它在下面的示例中，我创建了一个空的dataframe，并且我正在尝试用一组值填充特定的列。这不管用。 import pandas as pd import numpy as np col_names = ['ampere', 'freq', 'count'] dataf = pd.DataFrame(columns = col_names) freq = np.arange(0.6,2.6,0.1).t

浏览 16提问于2020-04-17得票数 0

1回答

如何在数据帧的每一列之间插入一个空列？

python、pandas

我正在尝试(使用python pandas)拆分从excel文件导入的数据帧的列，并在每一对列之间设置一个空列，但似乎无法解决。输入df示例： ABC 111 222 和输出： A B C 1 1 1 2 2 2 (空格表示它是一个空白列) 主要目标是将df导出到excel中，并在每个原始列之间留出空白列。谢谢!

浏览 1提问于2019-08-07得票数 0

2回答

将重复行从列的子集移到Python中的另一个数据帧

python、pandas

使用Python和Pandas，我希望找到数据帧中所有具有重复行的列，并将它们移动到另一个数据框架中。例如，我可能有： cats, tigers, 3.5, 1, cars, 2, 5 cats, tigers, 3.5, 6, 7.2, 22.6, 5 cats, tigers, 3.5, test, 2.6, 99, 52.3 我想要猫，老虎，3.5在一个数据帧中 cats, tigers, 3.5 在另一个数据框架中，我想 1, cars, 2, 5 6, 7.2, 22.6, 5 test, 2.6, 99, 52.3 代码应该检查每一列是否重复行，并且只删除在所有行

浏览 2提问于2019-10-21得票数 0

回答已采纳

3回答

基于列值合并数据帧

python、python-3.x、pandas

我有两个大的数据帧，下面的两个只是这两个看起来像什么的例子。 df1 = pd.DataFrame(columns=['node', 'st1', 'st2'], data=[['a', 1, -1], ['b', 2, 2], ['c', 3, 4]]) node st1 st2 a 1 -1 b 2 2 c 3 4 df2 = pd.DataFrame(columns=['node', 'st1', 's

浏览 25提问于2019-02-15得票数 2

回答已采纳

1回答

Pandas数据帧多个数据库表

python、python-3.x、database、pandas、postgresql

我有一个API包装器，可以从特定的产品中提取数据。我面临着如何将json数据映射到数据库(postgresql)的问题。我已经阅读了Pandas dataframe，但我不确定这是不是正确的方法。我有几个问题需要帮助。 1)是否可以选择哪些行可以进入数据帧？ 2)数据帧内的每一行都需要插入到两个不同的数据库表中。我需要在TableA中插入10列，获得新插入行的id，然后在TableB中插入5列，包括返回的id。我该怎么做呢？ 3)是否可以为数据帧中的每一列指定数据类型？ 4)是否可以将列名称重命名为数据库字段名称？ 5)是否可以遍历特定的列并替换某些数据？对于我正在尝试实现的目标，有没有可以

浏览 14提问于2020-05-15得票数 1

回答已采纳

1回答

isnull()函数无法识别数据中的缺失值

python、pandas、numpy、data-cleaning

我在一个数据帧上使用df''.isnull()，我当前正在使用从CSV中拉出的数据帧。实践数据故意有很多缺失值和错误，然而，熊猫无法识别“道布”列中的缺失值，通过打开CSV并看到“道布”列下的空单元格来验证是否存在缺失值。 df['DOB'].isnull().sum() Output: 0

浏览 85提问于2020-10-25得票数 2

回答已采纳

4回答

pandas中所有NaN的总和是否返回零？

python、pandas

我正在尝试跨Pandas数据帧的列进行求和，当每列中都有NaN时，我得到的结果是sum =0；根据文档，我预期sum =NaN。下面是我得到的信息： In [136]: df = pd.DataFrame() In [137]: df['a'] = [1,2,np.nan,3] In [138]: df['b'] = [4,5,np.nan,6] In [139]: df Out[139]: a b 0 1 4 1 2 5 2 NaN NaN 3 3 6 In [140]: df['total'] =

浏览 0提问于2015-10-31得票数 33

2回答

以每列为关键字将PySpark数据帧转换为JSON

apache-spark、pyspark、apache-spark-sql、databricks

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE", "No matching concept", "MALE", ....]} 因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON转储之前转换为字典，并成功地完成了转换，但由于数据量非常大，我想直接在PySpark数据

浏览 14提问于2019-12-18得票数 1

回答已采纳

2回答

如何使用循环填充零列的空pandas数据帧的单元格？

python、pandas、dataframe

我需要抓取数百个页面，而不是存储每个页面的整个json，我只想将每个页面中的几列存储到pandas数据帧中。然而，在数据帧为空的一开始，我遇到了一个问题。我需要填充一个没有任何列或行的空数据帧。所以下面的循环不能正常工作： import pandas as pd import requests cids = [4100,4101,4102,4103,4104] df = pd.DataFrame() for i in cids: url_info = requests.get(f'myurl/{i}/profile') jdata = url_info.

浏览 23提问于2021-10-28得票数 0

回答已采纳

2回答

如何在pyspark dataframe中返回空值的行？

python、pyspark、apache-spark-sql

我正在尝试从pyspark dataframe中获取空值的行。在pandas中，我可以在数据帧上使用isnull()来实现这一点： df = df[df.isnull().any(axis=1)] 但在PySpark的情况下，当我运行以下命令时，它显示Attributeerror： df.filter(df.isNull()) AttributeError：'DataFrame‘对象没有属性'isNull’。如何在不对每一列进行检查的情况下获取具有空值的行？

浏览 25提问于2018-11-27得票数 5

1回答

当列包含空值时，Pandas to_sql忽略数据类型

python、pandas、oracle、dtype、pandas-to-sql

第一个问题。我希望这足够描述性。 Pandas 0.25，Oracle 11g 我有一个从csv读取的数据帧。它包含数字、字符串和日期数据的混合。我使用.astype(str)、.astype(int)和.to_datetime在数据帧中强制使用数据类型。然后，我创建一个dtype字典来选择我想要的数据类型。当数值列中有一些空值时，types.NUMBER和types.INTEGER会在Oracle表中创建一个FLOAT。它应该是NUMBER(38,0)，特别是当我使用types.INTEGER的时候。定义为types.NUMBER且包含所有非空整数的键列被创建为NUMBER(38,0

浏览 65提问于2020-07-24得票数 0

回答已采纳

1回答

熊猫DataFrame -用旧日期替换Datetime列的空值

python、pandas

问题：如何将Pandas DataFrame中的datetime列的NULL值替换为类似于1900-01-01 00:00:00.000的内容我使用Pandas数据帧将大型数据文件导入到SQL Server 2019表中。下面的代码正确地将数值列的空值替换为0，将对象(字符串)列的空值替换为空字符串。但是它不会将datetime列的空值更改为1900-01-01 00:00:00.000。 import sqlalchemy as sq import datetime import pandas as pd import numpy as np ............ .........

浏览 5提问于2022-04-15得票数 0

2回答

如何在python中将整个列表写入数据结构

python、class、pandas、data-structures

因此，我面临的问题是，我想创建一个数据结构，其中包含来自我的熊猫数据帧的46个项目。因此，我有了完整的列名列表和pandas dataframe。所以有没有办法把每一行pandas都转换成我的数据结构的一个对象。所以说：我有一个很棒的地方列X Y A 1 2 B3 4 C5 6 所以我想把每一行都转换成一个对象考虑到我有46列和100,000行，有什么好方法可以做到这一点吗？

浏览 1提问于2015-10-31得票数 0

1回答

如何计算具有稀疏向量的两个pandas列的每一行之间的点积

python、pandas、scipy、sparse-matrix、dot-product

我有一个包含两列的Pandas数据帧，每列中的每一行都包含一个SciPy稀疏向量。这些向量是csr矩阵的行(因此它们实际上是形状为1x8500的矩阵)。我需要创建另一列，它的每一行都应该包含同一行前两列向量之间的点积。我知道如何在每一行上使用apply / map来做到这一点，但是当我处理具有数百万行的数据集时，这需要花费很长的时间。有没有更快的方法在整个数据帧上做到这一点？除了点积之外，我还需要计算余弦相似度，但据我所知，这可能是从点积得到的。更新:我不能在这里分享实际的数据，但这里有一个玩具示例(请注意，我现在只有结果数据帧)： import pandas as pd import

浏览 0提问于2017-05-30得票数 0

3回答