如何根据配置文件(文本或CSV)中的用户输入过滤pandas数据帧配置将告知过滤的值和列 - 腾讯云开发者社区

python、pandas、dataframe

我已经阅读了将csv文件加载到pandas数据帧中，并希望对该数据帧进行一些简单的操作。我不知道如何根据从原始数据框中选择的列来创建新的数据框。我的尝试是： names = ['A','B','C','D'] dataset = pandas.read_csv('file.csv', names=names) new_dataset = dataset['A','D'] 我想用原始数据帧中的列A和D创建一个新的数据帧。

浏览 1提问于2017-07-11得票数 24

回答已采纳

1回答

PANDAS索引特定列对应于列表中的字符串

python、pandas、list

我有一个Pandas数据帧，它有几列和一个列表。如果想要一个接一个地索引与列表中的元素相同的列(例如，首先是“apple”列，然后是“grape”列)，我如何实现这一点？如果我使用像fruits[list]这样的代码，它不能工作，只有水果‘’apple‘才能工作。 columns = ['apple', 'mango', 'pear','grape','number'] fruits = pd.read_csv('fruit', names=columns) list = ['apple&#

浏览 0提问于2021-06-06得票数 1

1回答

使用类从dataframe中删除列

python-3.x、pandas、dataframe、oop

我正在努力减少数据帧中不需要的数据列，但让它在OOP的范围内工作。数据帧中的列是从'A‘到'M’。示例： import pandas as pd # columns 'A' 'B' and 'C' are what I want kept vibe_df = pd.read_csv('C:Location/Document.csv') vibe_df = vibe_df[['DateTime', 'A', 'B', 'C']] 上面的工作，但是，我

浏览 0提问于2020-08-27得票数 1

7回答

在pandas中输出数据框中所有列的数据

python、pandas

我有一个名为params.csv的csv文件。我打开ipython qtconsole并使用以下命令创建了一个熊猫dataframe： import pandas paramdata = pandas.read_csv('params.csv', names=paramnames) 其中，paramnames是字符串对象的python列表。paramnames示例(实际列表长度为22)： paramnames = ["id", "fc", "mc", "markup", "asplevel", &#

浏览 2提问于2012-07-06得票数 122

回答已采纳

1回答

Python Pandas识别错误数据

python、pandas、csv

我有一个用逗号分隔的csv文件，每行有215列。文件非常大，我使用pandas dataframe pd.read_csv()和块来读取数据。文件中的一行有214列，而不是215列，但dataframe读取数据时将NaN应用于最后一列。有没有办法在pandas dataframe中标识此行，因为我更喜欢dataframe而不是csv_reader。注意:最后一列也可以为null，因此按等于null的最后一列过滤数据帧将不起作用

浏览 19提问于2020-09-30得票数 0

1回答

如何从pandas数据帧中的文本字符串中提取所有形容词？

python、nlp

我正在将CSV加载到pandas数据框中。数据框中的一列是“评论”，它包含文本字符串。我需要在数据帧的所有行中标识此列中的所有形容词，然后创建一个新列“形容词”，其中包含该评论中所有形容词的列表。我已经尝试使用TextBlobs，并且能够使用发布的代码标记每个案例的词性。 import pandas as pd from textblob import TextBlob df=pd.read_csv('./data.csv') def pos_tag(text): try: return TextBlob(text).tags except

浏览 26提问于2019-07-11得票数 2

回答已采纳

3回答

如何使用for循环从dataframe中删除许多行，这些循环遍历需要删除的值？

python、pandas、loops、dataframe

我正在尝试通过它的名称删除超过数百万行，这是超过1000个唯一值。有一个主数据帧(df_summary)和另一个数据帧，其中包含必须从主数据帧中删除的行的名称。删除一些列不是问题，但是需要删除的唯一值的数量太多了，无法手动执行。因此，我尝试遍历它。 “两个数据帧的整体外观，列后面有许多列” 以下是我尝试过的方法： from pandas import read_csv import pandas as pd df_summary = read_csv ('path.csv', sep=',') rows_to_remove = read_csv ('

浏览 28提问于2019-10-25得票数 0

回答已采纳

1回答

迭代PANDAS DATAFRAME时添加、删除、编辑行和列

python、pandas、dataframe

我有一个包含超过50,000条tweet的csv文件，我在Pandas中以DataFrame的形式打开 df = pd.read_csv('dataset_tweets.csv') 我的目标是分析推文的情绪，在继续之前，我需要对推文进行规范化。我已经为此定义了一个函数，并且我想将输出添加为数据帧的新列(例如Text_Normalized)。然而，如果满足某些条件(例如，如果tweet不是用英语编写的)，我可能还需要删除该行。如何遍历数据帧，将"normalizer“函数应用于文本列，如果行不满足特定条件则将其删除，并最终添加一个文本规范化的新列？

浏览 6提问于2017-08-15得票数 1

回答已采纳

4回答

将数据帧写入/读取到csv -最终形状- Python时出现问题

python、pandas、dataframe、csv、file

我正在将一个大型数据库读入多个数据帧。每次都有效。所以我有单独的数据帧。然后，我将每个数据帧写入csv文件。最初它有34列。在此之后，我将csv文件读取到一个新的数据帧中，现在我有35列。我这样做是为了写入csv文件： df.to_csv(path + "file_01.csv") 这是用来读它的： import pandas as ps df = ps.read_csv(path + "file_01.csv") 我通过以下命令测试它们的列数： df.shape 为什么会发生这种情况，我如何改进\使其正常工作？

浏览 29提问于2020-08-18得票数 1

回答已采纳

1回答

如何在pandas dataframe中定义带下划线的列？

python、pandas、dataframe

我想通过保持列名称下划线来区分pandas dataframe中的头和数据。实现这一点的另一种方法是在pandas dataframe中的column-name和row之间画一条线，如下所示。我在visual studio中运行3.9.2版本的python代码。请告知这是否可以在pandas数据框架内完成。输入:通读excel表格。 DF1 = pandas.read_excel("Input.xlsx",sheet_name=0) OFFICE NO DAY HOURS DAY RATES 101 8 60 102

浏览 82提问于2021-08-06得票数 0

回答已采纳

2回答

特定环境设置Spring批启动Spring Spring云数据流

spring-boot、dockerfile、spring-batch、spring-cloud-dataflow

我有一个Spring批处理的Spring应用程序，需要转换成映像，然后在Spring数据流中使用它来调度工作。 application-properties/dev/application.yml respectively.We被告知将密码和用户名作为 password: ${DB_ORCL_PASSWORD} username: ${DB_ORCL_USER} 我不知道如何根据环境替换凭据。这是我在建立码头形象时应该提供的东西吗？

浏览 4提问于2021-02-08得票数 1

回答已采纳

1回答

获取用户输入并使用pandas python搜索csv

python、python-3.x

我试图获取用户输入，并通过询问汽车的制造商、型号和年份来搜索csv文件，但当我进入型号时，它没有正确过滤汽车。它仍然显示所有的汽车型号，即使我只想要丰田汽车。当我完成输入时，我也得到了空的数据帧错误。 import pandas # reads in vehicle Data df = pandas.read_csv('sData.csv') pandas.set_option('display.max_columns', None) pandas.set_option('display.width', 400) def get_choic

浏览 9提问于2019-07-29得票数 0

2回答

我的pandas数据帧中缺少数据。我如何告诉python不要在新的数据帧中包含它？

python、pandas

我有一个文本文件mart_export.txt，其中包含两种不同类型的密钥，如下所示 Gene stable ID RefSeq match transcript ENSG00000243959 ENSG00000206698 ENSG00000265684 ENSG00000251990 ENSG00000241552 ENSG00000050767 NM_173465.4 正如您所看到的，右侧列的大部分没有任何数据，但我正在尝试从两个列都有值的索引中构建一个新的pandas数据帧。到目前为止，这是我的脚本 #Put the biomart export in a pandas

浏览 15提问于2019-04-16得票数 1

回答已采纳

1回答

如何存储以后容易子集的大矩阵(数据帧)

mysql、database、local-storage、bigdata、storage

我将在R中生成一个大矩阵(数据帧)，其大小约为1300000*10000，约50 GB。我想以适当的格式存储这个矩阵，这样以后我就可以将数据输入到Python或其他程序代码中进行分析。当然，我不能一次性提供数据，所以我必须对矩阵进行子集，然后一点一点地提供给它们。但我不知道如何存储矩阵。我想了两种方法，但我认为都不合适：(1)纯文本(包括csv或excel表)，因为它很难子集(例如，如果我只想要一些列和行的数据) (2)数据库，我搜索了关于mysql和sqlite的信息，但似乎在sql数据库中列的数量是有限的(1024)。所以我只想知道是否有好的策略来存储数据，这样我就可以通过行/列索引或名称

浏览 2提问于2017-11-14得票数 0

2回答

将根据给定需求选择的某些行放入另一个数据帧中

python-3.x、pandas

我已经使用Pandas将csv文件读取到数据帧中，csv格式如下。我想把“时间列信息”在6/3/2011-10/20/2011间隔之间的行放到另一个数据帧中。我怎样才能在Pandas中高效地做到这一点？

浏览 4提问于2018-08-10得票数 0

1回答

将数据读入pandas数据帧，同时保持较高的小数点数量

python、pandas

我正在尝试使用pandas read_csv从文本文件中读取一些数据。数据的形式如下： (v14).K Best_ value 5.00885e-007 3.0914e+007 5.75366e-007 2.99467e+007 到目前为止我的代码是： def parse_IA_results(results): df = pandas.read_csv(results, delimiter='\t',dtype=numpy.float64) return df 问题是这个函数会自动四舍五入到小数点后5位，这使得我的数据不精确。我尝

浏览 2提问于2015-09-07得票数 0

1回答

Magmi消除进口产品关系

php、magento、csv、magmi

在使用Magmi将产品导入Magento环境时，我刚刚发现了一个问题。 Magento安装在两个不同的域上有两个不同的存储区，它们都是从一个Magento实例中运行的。这两家商店都有相同的产品，但产品数据的需求差别很小，因为销售价格可能因其所使用的商店而异。当default商店的产品被更新(存储设置为admin，网站设置为CSV文件中的default )时，似乎Magmi删除了该产品的所有产品关系。当关系是手动恢复和使用相同的CSV文件再次更新，但商店和网站被设置为不同的值，关系保持不变。我已经验证了CSV文件是正确的，因为所有数据都是正确导入的。产品相关插件已经关闭，以测试这是否有效，但

浏览 5提问于2014-11-25得票数 1

回答已采纳

1回答

使用pandas数据帧修改csv中的数据

python、pandas、csv

我有一个这样的结构；用来创建一个pandas数据帧： my_dict = { 'name' : ["joe", "jack", "jill", "joan", "jesse","jacob", "jonas"], 'age' : [20,27, 35, 55, 18, 21, 35], 'designation': ["VP", "CEO

浏览 6提问于2019-07-15得票数 0

回答已采纳

1回答

pandas在csv上提高OutOfBoundsDatetime，而不是在sql上

python、python-3.x、pandas、csv、sqlalchemy

我有一个运行pandas版本0.25.2的服务。此服务从数据库读取数据并将快照存储为csv df = pd.read_sql_query(sql_cmd, oracle) 查询的结果是一个包含一些非常大的日期时间值的数据帧。(如3000-01-02 00:00:00)之后，我使用df.to_csv(index=False)创建csv快照并将其写入文件在安装了pandas 0.25.3的不同机器上，我将csv文件的内容读入数据帧，并尝试将date列的数据类型更改为datetime。这将导致OutOfBoundsDatetime异常 df = pd.read_csv("xy.csv

浏览 18提问于2019-11-08得票数 1

回答已采纳

1回答

利用熊猫来寻找每天的平均值

python、csv、pandas

我目前正在编写一个代码，该代码接受如下所示的.csv文件： 724070 93730 19800101 0 330 1.5 22000 -1.7 -5 1013.6 78 724070 93730 19800101 100 230 1.5 22000 -2.7 -5.5 1013.7 81 724070 93730 19800101 200 0 0 22000 -3.8 -4.9 1013.9 92 724070 93730 19800101 300 340 1.5 22000 -5.6 -6.1

浏览 1提问于2014-05-05得票数 1

回答已采纳

1回答

Dask数据流分析

pandas、dask、dask-distributed

我有一个数据集存储在一个标签分隔的文本文件中。该文件如下所示： date time temperature 2010-01-01 12:00:00 10.0000 ... 其中temperature列包含以摄氏度(°C)为单位的值。我用达斯克计算日平均温度。这是我的代码： from dask.distributed import Client import dask.dataframe as dd client = Client("<scheduler URL") inputDataFrame = dd.read_table("<in

浏览 1提问于2018-10-12得票数 0

3回答

如何使用pandas数据框打开csv文件

python、pandas、csv、dataframe

有一个包含三列数据帧的CSV格式文件。第三列包含长文本。当我尝试使用pandas.read_csv打开文件时，出现此错误消息 message : UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 0: invalid start byte. 但使用以下命令打开该文件没有问题 with open('file.csv', 'r', encoding='utf-8', errors = "ignore") as csvfile

浏览 1提问于2018-01-22得票数 3

1回答

熊猫/达克-通过和聚集一个大的CSV的小组，破坏了记忆和/或花费了相当长的时间。

python、pandas、dataframe、dask

我正在尝试一个小型POC，尝试按&聚合来减少熊猫和Dask中来自大型CSV的数据，而且我观察到内存使用率很高和/或比我预期的处理时间慢。有没有人对蟒蛇/熊猫/杜克诺布有什么改进的建议？背景我请求构建一个文件摄取工具，该工具将： transformationsreduce 可以接收几个GBs的文件，其中每一行都包含用户id和其他信息，执行一些数据到web服务中的数据批次。根据我的研究，由于文件只是少数几个GBs，我发现火花等会造成过度的伤害，而Pandas/Dask可能是一个很好的匹配，因此POC。问题对于熊猫和达斯克，处理1GB的csv要花费1分钟，熊猫要消耗1.5GB的，D

浏览 2提问于2021-02-11得票数 1

1回答

如何根据另外两列中满足的条件对最后一列中的pandas DataFrame元素进行索引？

python、pandas、dataframe、indexing

pandas数据帧有4列： df.columns = ['col1', 'col2', 'question', 'answer'] 如何根据满足第一列的标准对数据帧进行索引，从而为'answer'列的单个条目编制索引？即： df['col1'=='apple' and 'col2'=='guitar'].answer

浏览 10提问于2021-01-11得票数 0

2回答

如何在CSV文件中创建4个头文件，使其成为pandas数据帧中16列的头文件行？

python、python-3.x、pandas

这是输入的csv和4个标题行成为最后4列的标题，但我希望1个标题成为前4列的标题(客户，DII，FII和Pro)。同样，pandas数据帧中CSV格式的另外4列的第二个标题：- 如何创建4个标题行，使其占据4个单元格？

浏览 1提问于2020-06-12得票数 2

0回答

我真的可以使用字典而不是动态赋值变量吗？

python、arrays、variables、dataframe、scope

这里的目标是读入许多csv文件，每个文件都读入一个单独的Pandas数据帧。下面三行中的第三行在"=“之前是错误的。我读过很多关于使用字典而不是动态变量的帖子，但我不明白如何在这里应用它。除了globals()方法之外，是否还有其他方法，这似乎有很多反对意见？ testlist = ['A', 'B', 'C'] for dfsuffix in testlist: 'df' + dfsuffix = pandas.read_csv(dfsuffix + '.csv') 所以，举个例子，我希望第一次迭

浏览 1提问于2017-11-29得票数 0

回答已采纳

1回答

Python Pandas DataFrame数据标识

python、excel、csv、pandas

我从.xlsx文件中提取数据并将其存储在数据帧中。数据帧称为df，数据帧的大小为(51,3)。51行。3列。列是未命名的，编号为0、1、2。行的索引从0到50。在python中，我将使用什么语法从带有pandas的数据帧中提取数据并将其放入csv？我知道我会使用DataFrame.to_csv("outputFile.csv" )，但是我不确定如何识别特定的数据(行/列对)，所以我可以将它放在csv表中的新位置，而不是旧的excel表。

浏览 1提问于2016-03-09得票数 0

1回答

将请求文本响应加载到Pandas数据帧中

python、python-3.x、pandas

正在尝试将请求响应中的文本加载到Pandas数据帧中。 url = "https://api.semrush.com/" parameters = {"type": "phrase_organic", "key": "*****", "phrase": phrase, "database": "us", "display_limi

浏览 8提问于2019-02-23得票数 4

回答已采纳

2回答

在写入CSV时操作Pandas输出

python、pandas、dataframe、csv

我正在试着写一些能做以下事情的东西：读取超过1m行、100列数据的CSV；按照从最大行到最少行的顺序列出重复行的出现情况来总结每列到目前为止，我所拥有的： import pandas as pd df = pd.read_csv (r'infile.csv') outfile = ('outfile.csv') for i in df: df.pivot_table(index=i, aggfunc='size').to_csv(outfile, mode='a') 下面的代码输出如下： ColumnA,0 as

浏览 31提问于2020-08-24得票数 0

回答已采纳

3回答

五旬节水壶勺的数据格式和数据提取

pentaho、kettle

我在用凯特尔汤匙来改造。如何从“获取系统信息”中给出固定的输入日期？我看到了选择昨天、月前等选项，但我希望手动选择固定日期，例如：'2012-12-14‘。我从转换中得到了一个csv，“文本文件输出”。输出为A，B，C，D，E。我只想过滤，只得到A，B，D，E。如何从“文本文件输出”中过滤，并只选择想要的列将我的数据输入到最终表中。提前谢谢你。

浏览 2提问于2013-01-11得票数 2

2回答

列大小问题: read_csv

python、pandas、csv

我有一个有4列的数据帧。为了在本地计算机上工作，我必须将此数据帧转换为csv。当我将dataframe转换为csv时，我只有一列： df = pd.read_csv("final.csv") print df.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 20479 entries, 0 to 20478 Data columns (total 1 columns) 如何将此csv转换为4列的dataframe？

浏览 1提问于2017-10-06得票数 0

3回答

CSV不能用数值来解释。

python、pandas、csv、floating-point

(这是代码和“用户”问题的混合，但由于我怀疑问题是代码，所以我选择在StackOverflow中发布，而不是SuperUser Exchange)。我用.csv方法生成了一个pandas.DataFrame.to_csv()文件。该文件由2列组成:一列是标签(文本)，另一列是名为准确性的数值(浮点数)。分隔列的分隔符是逗号(，)，所有浮点数都用点浮点数存储，如下所示: 0.9438245862 即使将该列保存为float，Excel和也会推断其类型为文本。当我尝试将这个列格式化为数字时，他们忽略了“0”。并返回非常高的值，而不是小数，如下所示： (文字) 0.9438245862 =>

浏览 2提问于2021-03-16得票数 0

回答已采纳

2回答

如何在pandas dataframe中使用列表作为值？

python、csv、numpy、pandas、dataframe

我有一个数据帧，它要求列的子集具有具有多个值的条目。下面是一个包含“runtime”列的dataframe，其中包含程序在各种条件下的运行时： df = [{"condition": "a", "runtimes": [1,1.5,2]}, {"condition": "b", "runtimes": [0.5,0.75,1]}] df = pandas.DataFrame(df) 这就形成了一个数据帧： condition runtimes 0 a [1,

浏览 0提问于2014-11-08得票数 8

回答已采纳

3回答

Pandas在使用read_csv时添加小数点

python、pandas、csv

我正在处理一些csv文件，并使用pandas将它们转换为数据帧。之后，我使用一个输入来查找要删除的值我遇到了一个小问题:对于某些列，它会将".o“添加到列中的值中。它只在包含数字的列中执行此操作，所以我猜它将该列读取为一个浮点数。如何防止这种情况发生？真正让我困惑的是，它只发生在几个列中，所以我不能完全弄清楚模式。我需要去掉".0“，这样我才能重新导入它，而且我觉得从一开始就防止它发生是最容易的。谢谢! 下面是我的代码示例： clientid = int(input('What client ID needs to be deleted?')) df1

浏览 134提问于2019-01-11得票数 2

1回答

Pandas: ValueError: Integer列在第2列中有NA值

python、pandas

在尝试将csv文件读入到我的数据类型时，我得到了值错误。我需要确保它工作正常，并且每一行都被读入并且是正确的。例如，错误包括： Pandas: ValueError: Integer column has NA values in column 2 我试图在Pandas Python库中强制转换为整数，但有一个值。然而，我读入的csv文件似乎有一些错误的条目，因为它由手动输入的测试结果组成。我读到了这个命令： test = pd.read_csv("test.csv", sep=";", names=pandasframe_names, dtype=pan

浏览 414提问于2020-02-24得票数 1

1回答

使用布尔掩码创建新的数据帧

python、pandas、dataframe

我有一个数据帧，其中包含名为text的列中的文本，以及lang列中存储的文本所使用的相应语言。我要做的是创建一个辅助数据帧，其中只包含英语文本wrritten (在lang列中也包含值en )。dataframe还包含其他值，所以我不能直接复制它。这是我尝试过的： english_only = df['lang'] == 'en' df_2 = pd.DataFrame(df[english_only]['text'],columns = ['text','sentiment']) 当我运行代码时，我得到一个与原始

浏览 8提问于2020-05-28得票数 1

回答已采纳

1回答

计算Pandas Dataframe中多列的日平均值，然后插入一行

python、python-3.x、pandas、dataframe、csv

我使用Pandas向数据帧输入了一个CSV文件，并希望计算其中列的日平均值。有两个列不会被平均化，时间和日期(日期是数据分组的日期)。然后，我希望在该日期的最后一行下面插入一行，在date列中插入“Average”( time列中没有任何内容)，然后在正确的列中插入相应的平均值。我只使用了Pandas一段时间，所以我不知道最简单的方法是什么。任何帮助都将不胜感激。

浏览 12提问于2022-06-17得票数 0

1回答

Python Pandas用于匹配具有重叠坐标的行

python、pandas、dataframe

我是一名python新手，正在尝试解决使用熊猫的问题。我有两个.csv文件，它们是作为pandas数据帧导入的。其中一个文件是包含ID号、起始和结束坐标行的文件： ID Start End 1 45 99 3 27 29 6 13 23 19 11 44 我的第二个文件有一个代码列，以及开始和结束坐标： Code Start End ss13d 67 100 dfv45 55 100 aal33 101 222 mm0ww 24 28 我希望找到在这两个文件之间没有特定顺序重叠的开始和结束坐标，这样结果就

浏览 19提问于2020-04-09得票数 1

回答已采纳

1回答

熊猫按每个组的唯一出现次数进行聚合

pandas

在pandas中，如果条件值出现一次，我会分析组。我已经在下面的第一步中包含了一个样例数据帧，试图识别这样的组。因此，假设在下面的数据框中，我希望过滤原始数据框中曾经具有大于6的花冠长度的虹膜物种。在最后一个命令中，我正在计算具有大于6的花冠长度的独特物种组的数量(因此，至少我可以计算它们)。但是，我真正想要的是原始数据帧，只有当物种的花冠长度大于6时，我才会分析行(因此，这将是一个没有物种"setosa“的数据帧，因为它们从来没有一个)。更详细的解释是，我有一个真实的用户数据集。每个用户在某些列中的值可能会超过感兴趣的阈值。我还没有想出如何分析拥有这些阈值的用户。也许循环会更好

浏览 0提问于2020-10-10得票数 0

2回答

Pandas:如何使用存储在不同变量中的多个表达式过滤数据？

python、variables、filter、pandas、expression

我正在构建一个多用途的用户界面，我正在添加Pandas到它。为此，我需要根据由用户选择定义的组件(存储在变量中)形成表达式。一切似乎都很顺利，但我陷入了死胡同。我希望用户能够选择几个表达式，然后将它们连接起来形成新的dataframe。如果我只使用一个表达式，一切都会正常运行： from pandas import read_csv df = read_csv("SomeCsv.csv") b= df[r'ID'] a=(b==r'p') Value=df[a] #Works,returning the rows in df whichs co

浏览 4提问于2013-11-28得票数 3

回答已采纳

1回答

如何在python中的单独列的数据帧中插入pos标签？

python-3.x、nlp、text-processing、pos-tagger

我已经使用TextBlob标记了我的输入文本，并将其导出为文本文件。它给了我三个信息: POS，Parse Chunker和Deep Parsing。此标记的输出格式为: Technique:Plain/NNP/B-NP/O and/CC/I-NP/O。我希望将其安排在一个数据帧中，每个数据帧都有单独的列。这是我正在使用的代码。 import pandas as pd import csv from textblob import TextBlob with open('report1to8_1.txt', 'r') as myfile: r

浏览 20提问于2019-04-21得票数 0

回答已采纳

1回答

表示H2O输入CSV中的项列表

machine-learning、h2o、sparkling-water

如何表示H2O输入数据(数据帧)中的项集/列表？我用的是H2O流量为1.6.5的起泡水。我的输入数据( CSV文件中的列)如下所示： age: numeric gender: enum hobbies: ? sports: ? 业余爱好和体育活动是一份清单/套餐，可能的条目数量有限(每个项目约20条)。H2O似乎没有合适的数据类型。如何将这些输出导出到H2O流可以处理的CSV文件中？

浏览 3提问于2016-06-25得票数 2

回答已采纳

24回答

将包含NaNs的Pandas列转换为dtype `int`

python、pandas、na

我将数据从.csv文件读取到Pandas数据帧，如下所示。对于其中一列，即id，我希望将列类型指定为int。问题是id系列的值缺失/为空。在读取.csv时，当我尝试将id列转换为整数时，我得到： df= pd.read_csv("data.csv", dtype={'id': int}) error: Integer column has NA values 或者，我尝试在阅读后转换列类型，如下所示，但这一次我得到： df= pd.read_csv("data.csv") df[['id']] = df[['id&#

浏览 454提问于2014-01-22得票数 277

回答已采纳

4回答

检测CSV中不同列数的记录

python、pandas、csv、awk

我需要每天摄入一个CSV文件到一个pandas dataframe中。CSV有几千行，但是每天我都会得到一些列数比预期更多的记录。让我给你举个例子。采取以下CSV Name, Address, Phone John Doe, 777 Street, 3145678777 Jane Doe, 888 Street, 3145678888 Chris Doe, Adam Smith, 999 Street, 3145679999 Ellen Page, 222 Street, 3145679222 这是我的进口线： df = pd.read_csv(myfile.csv, header = 0,

浏览 0提问于2021-04-30得票数 3

回答已采纳

1回答

获取“FileNotFoundError”

python、file-not-found

我刚接触Python，目前正在在线学习如何使用Python进行数据分析和可视化。我已经学习了Python基础知识课程，现在我将进入下一步。我一直在努力学习一堂题为“阅读和编写文本文件”的课程中的代码。我正在尝试从csv文件构建数据帧，但我一直收到'FileNotFoundError‘。我已将csv文件保存在c驱动器的名为Python Examples的文件夹中，但python找不到该文档。在Jupyter Notebook中，我甚至尝试在代码中输入正确的文件路径，但出现了一个不同的错误，一个'Unicode‘错误。这是我尝试过的： import numpy as np i

浏览 20提问于2020-08-10得票数 0

2回答

如何确保从csv文件加载的dataframe中的列被格式化为整数(不含小数字符)

python、pandas、csv、dataframe

我使用的是Python 3.7 我需要从两个不同的源(都是csv)加载数据，并确定一个源中的哪些行不在第二个源中。我使用pandas数据帧加载数据，并在两个数据源之间进行比较。我从csv文件中加载了数据，在data-frame列中，类似2010392的值变成了2010392.0。我读过很多关于格式化数据帧列的文章；不幸的是，大多数都是关于日期和时间转换的。我在上偶然看到一篇文章《在Python pandas中格式化整数列数据框》，这篇文章并没有解决我的问题基于上面提到的文章，我尝试了以下几种方法： pd.to_numeric(data02['IDDLECT'], do

浏览 30提问于2019-07-09得票数 0

回答已采纳

1回答

如何在熊猫数据框中进行分组t-test？

python-3.x、pandas、scipy

我有一个相当大的熊猫数据框，有很多列。数据帧包含两个组。它的基本设置如下： import pandas as pd csv = [{"air" : 0.47,"co2" : 0.43 , "Group" : 1}, {"air" : 0.77,"co2" : 0.13 , "Group" : 1}, {"air" : 0.17,"co2" : 0.93 , "Group" : 2} ] df = pd.DataFrame(csv) 我想对air和co2

浏览 8提问于2017-07-10得票数 4

回答已采纳

2回答

删除dataframe python中的空间

python、pandas、whitespace、dataframe、strip

我在代码中遇到错误，因为我试图通过调用csv中的元素来创建数据帧。我从一个文件调用了两个列: CompanyName和QualityIssue。质量问题分为三类:设备质量问题、用户质量问题和两者都不存在的质量问题。我在尝试创建数据帧df.Equipment质量时遇到了问题，这显然是行不通的，因为那里有一个空间。我想从原始文件中获取设备质量，并用下划线替换空格。输入： Top Calling Customers, Equipment Quality, User, Neither, Customer 3, 2,

浏览 1提问于2015-06-11得票数 11

回答已采纳

2回答

熊猫创建新的列并附加

python、pandas、concat

我试图将多个文本文件编译成一个数据框架。但是，当我使用Pandas Concat函数加入数据帧时，生成的数据帧的形状会添加新的列。在下面的代码示例中，数据框架3有12列，而不是8列。为什么？ **Input:** import pandas as pd df1 = pd.read_csv('2011-12-01-data.txt',sep = None, engine = 'python') df2 = pd.read_csv('2011-12-02-data.txt',sep = None, engine = 'python'

浏览 1提问于2017-06-24得票数 4

回答已采纳

1回答

提高非常大的数据帧上的迭代性能

python、pandas、dataframe、iteration、list-comprehension

我有一个pandas数据帧，它由300万行和50列组成，所有列都包含整数(正数或负数)。我想创建一个名为'feature‘的新列，它从现有的50列中提取最大的负数。例如，如果对于给定行，50列包含以下值 -25,-24,-23,...,-1,1,...,23,24,25 “feature”列应返回-1。因为我的数据帧太大了，所以我尝试的解决方案花费的时间太长了。例如，我尝试过使用列表理解，但是因为我求助于iterrows()，所以它太慢了(itertuples()的性能并没有明显的提高)： import numpy as np import pandas as pd from tq

浏览 3提问于2019-07-17得票数 1

回答已采纳