我有200多个专栏的数据。我希望在每一列中都使用value_counts()。下面是我的代码,它运行良好,但当我想创建"csv“时。下面的代码只输入最后一列(值计数)。我想要所有。
import pandas as pd
df = pd.read_csv("hcp.csv")
for col in df:
df2 = df[col].value_counts()
print(df2)
df2.to_csv("new_hcp.csv")
打印(Df2)显示的是所有的值计数,而不是"CSV“。任何能帮忙的人,我都会感激的。
import pandas as pd
df = pd.read_csv('admission_data.csv')
df.head()
female = 0
male = 0
for row in df:
if df['gender']).any()=='female':
female = female+1
else:
male = male+1
打印(女性)打印男性
CSV文件有5列
我想知道女性的总人数,男性和她们的人数,女性被接纳的人数,男性被接纳的人数。谢谢。这是我尝
我目前在python上显示了我的csv文件:
df = pd.read_csv("Desktop\Assignment\World Cup 2018.csv")
df.head()
在这里,我可以看到我的数据已被打开,不需要的列已被删除。现在,我想使用一些名为CounterVal1 (依此类推)的变量来计算队形在一行中出现的次数。
for i in enumerate(df['home_formation']):
if i == '4-2-3-1':
counterVal1 += 1
elif i == '4-1-4-1'
假设我有以下数据集作为CSV文件。 我希望我的输出是一个CSV文件,它是此数据的子集,仅基于与列B中最频繁的值相关联的数据。 在下面的示例数据中,列B中最频繁的值是"1",但是这将会改变,因此我需要我的代码不是那么具体。 A B
! 1
@ 1
# 1
$ 1
% 2
^ 3
& 2
* 4
( 5
) 2
In this example, I want my output to be a CSV file of:
A B
! 1
@ 1
# 1
$ 1 但是由于最频
我正在试着写一些能做以下事情的东西: 读取超过1m行、100列数据的CSV;按照从最大行到最少行的顺序列出重复行的出现情况来总结每列 到目前为止,我所拥有的: import pandas as pd
df = pd.read_csv (r'infile.csv')
outfile = ('outfile.csv')
for i in df:
df.pivot_table(index=i, aggfunc='size').to_csv(outfile, mode='a') 下面的代码输出如下: ColumnA,0
as
我正在使用从我所在的郡警长部门下载的csv文件创建的数据文件。数据位于,可以使用read_csv()读取。“数据”载有向治安官报告和采取行动的事件的信息。其中一列是事件发生的城市,我试图创建一个表和图表,显示我所在地区(Larkfield)的事件数量随时间的变化。
当我使用熊猫的value_counts函数以“城市”作为输入时,我得到
In [86]: compcounts = soco['city'].value_counts()
In [96]: compcounts[0:10]
Out[96]:
SANTA ROSA 55291
WINDSOR
我正在努力做下面的事情,不知道你能不能帮我。
我有一个2列的熊猫数据框架。我想计算A列中A列的每个值。如果出现的次数大于1,则打印(‘hello’)
例如,
for i in range(1, len(DF)) **if count(DF.iloc[[i],[1]].values)>1:** print('hello')有什么可以帮忙的吗?
谢谢,H
我是python的新手,我会非常感谢你的帮助。我试了一整天。我有一个包含10列的csv文件。我只对3个州,县和邮政编码感兴趣。我正在尝试,尝试并尝试获得每个列(例如CA 20000,TX 14000 )中出现的次数的计数,并将计数结果输出保存在csv文件中,该文件可以轻松地导入到excel中,并进一步与地理空间文件合并。
我设法选择了我需要的3列
import numpy as np
from tabulate import tabulate
import pandas as pd
#Replace with path and name file in your computer
f
我有一个csv文件,我只想在其中搜索一列的文本。例如:如果我在“敏捷的棕色狐狸跳过懒狗”一栏中有一行文本,并且我在“文本”列中搜索“狗”,我应该打印该行。到目前为止,我一直在努力改进以下内容。 def read(option, searchitem):
if option == "text":
csvfile=open('myfile.csv','r')
for row in csvfile:
if row[2].find(searchitem):
我有一个名为国际足联的csv文件,这是一个足球运动员的统计记录。
有一个列,叫做‘首选脚’(用来踢球),它的值可以是‘左’或‘右’脚,只有每个记录(球员)。
那么,怎样才能最快地计算出拥有右脚和左脚的玩家的数量。
示例表:
# Foot
1 Right
2 Left
3 Left
4 Right
5 Right
6 Left
7 Right
8 Right
从这个表中,我需要列中每个可能的值的参与者数,因此,反过来,上面的表将用于创建这个表。
Foot Number
Right 5
Left 3
请使此通用化,就像我要向列的可能值添加除左或右以外的多个值一样。不要将其限制为列的
我在1到100之间创建了100万个随机整数&将结果写入一个文本文件。
Results_File = open('RandomResults.txt','w')
for i in range(1000000):
x = random.randint(1,100)
Results_File.write(str(x) + "," + '\n')
好的,那就行了。但我希望在整个数据集中找到每个整数的出现情况。
因此,我将文件导入到一个新的python会话中,并从数据中创建了一个dataframe。(我还打开了csv
我需要比较3个csv文件来比较3列(所有3列在所有3个csv文件上都有相同的名称),计数1)什么是重复的,2)什么是不同的(只有计数是好的)。 例如。csv1 colB需要检查并与csv2 colB和csv3 colb比较重复的计数总计(在CSv2,3上匹配)和coutn总计(在CSv2/3上匹配)。 所有3个csv都有相同的列名,colB有ip地址,colC有散列值,colD有域名。 我在matching colB with failure上尝试了这个测试: print(df[~df.colB.isin(df1.colB)]) #prints out all columns from df
我在想,我们是否可以计算出某些熊猫数据的最左边的index中有多少次0-9重复:
A B C
0 -56.343656 NaN -418.540483
10 -87.577880 -16.061497 NaN
20 NaN -15.337254 NaN
40 -67.462841 NaN -431.924830
50 -63.377158 -28.260790 NaN
60 NaN -22.996095
import pandas as pd
A=pd.read_csv("C:/Users/amulya/Desktop/graves lab/main_now.csv", index_col=False, header=None)
DATA1=pd.DataFrame(A)
DATA1[0]
B=pd.read_csv("C:/Users/amulya/Desktop/graves lab/words.csv", index_col=False, header=None)
DATA2=pd.DataFrame(B)
DATA2[0]
for xrow in ra
我有一个.tsv数据文件。我想在某一列中打印字符串的计数。列如下所示:
column1
A aaa
A, C c
C
D
E ee,F
A aaa, B, C cc
F
E ee
我想要不同的A,B,C,A aaa等等,但是在列中,有时在",“之后有空格。所以我的代码计算"B“和”B“的方式不同。这是我目前使用的代码:
import pandas as pd
import os
# Import data from file into Pandas DataFrame
data= pd.read_csv("data.tsv", encoding='ut
我正在数据框中的列中搜索已转换为列表的CSV中包含的值列表。搜索这些值不是这里的问题。
import pandas as pd
df = pd.read_csv('output2.csv')
hos = pd.read_csv('houses.csv')
parcelid_lst = hos['Parcel ID'].tolist()
result = df.loc[df['PARID'].isin(parcelid_lst)]
result
我想要做的是,一旦搜索完列表,数据框中显示了“已找到”的值,我还想打印或显示列表中“
我已经知道了如何遍历具有n列的csv文件中的特定列。但现在我想要创建一个条件,但我不确定如何创建。 所讨论的列是一周中的某几天(星期一、星期二等)。我想写代码,以便我的迭代计算所有的星期一,所有的星期二,等等。这是我写的,我得到了一个语法错误。 mon = 0
# print (df)
days_week = df.iloc[4:,2]
# print(days_week)
for i in days_week:
if i == "MONDAY"
mon+=1 当前此特定列的数据类型为“object”。所以我想我需要把它改成字符串?
我想知道如何从特定的数据框架中计算出列表中的唯一单词的数量。例如,假设我接下来有一个list = ['John','Bob,'Hannah'],我有一个数据框架,其中有一个名为句子的列
df =
['sentences']
0 Bob went to the shop
1 John visited Hannah
2 Hannah ate a burger
我想要的输出是:
John 1
Bob 1
Hannah 2
如何计算数据集中任意行中任何给定句子中的唯一名称?