我有一个有很多列的Pandas数据框,其中之一是“电影标题”,我想找到出现在最多行的前5个电影标题,并将它们按降序排列。
例如:
movie title
Title 1
Title 2
Title 2
Title 3
Title 3
Title 3
应该变成:
movie title count
Title 3 3
Title 2 2
Title 1 1
它可以在同一数据帧中,也可以在新的数据帧中。我可能错过了一个简单的解决方案,因为我对Pandas非常陌生。谢谢你的帮忙!
我有一个简单的excel列表,其中的数据可以分为三类(项目、活动和计划)。
使用vba时,我希望拆分列表,使其首先显示项目,然后换行符重复标题以显示活动,然后换行符重复标题以在一个工作表中显示所有计划
示例
Description Type
Project a project
Project b project
Maintenance a activity
Project c project
Initiative 1 initiative
被分成
Description Type
Project a project
Proje
在Pandas上导入文本文件时出现问题。当我在文本中打开文件时,列没有问题,但是当我用Pandas打开它时,我不能拆分列,并且Jupiter-notebook将其识别为一列。我想有三列标题分别是'Z‘、'H’和‘err’。what will give me when I open the saved file data= np.genfromtxt('/path/hubel.dat')
df=pd.DataFrame(data)
df.columns= ['Z', 'H', 'err']
df_groupby_e
我正在按百分比建立ARIMA/Sarima模型,但得到的误差为1- model = SARIMAX(np.asarray(train), order = (0, 1, 1), seasonal_order =(1, 1, 1, 12))
TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe
我试图实现马尔可夫链,并需要计算前一个单词的概率。我创建了一个数据框架,并尝试了一个变体和一个for循环。在这两种情况下,由于某种原因,它总是只返回第一个元素的前一个单词。所使用的数据框架是
freq term
ball costs 1 ball costs
bat bal 1 bat bal
bat ball 1 bat ball
bread eggs 1 bread eggs
buy bread 1 buy bread
costs rupe 1
我想将一个csv文件读入Pandas DataFrame,该文件包含几行,分隔符数不正确。我知道,可以通过设置error_bad_line=False跳过这些行。但我想用这样的方式来解读:
labelIncorrect 更正数据:some text,label,在本例中为1st column = some text,2nd column =1st column数据:some text, another text, again some text,label,在本例中,我希望1st column = some text, another text, again some text,2nd col
我有以下数据框 df = pd.DataFrame({'Date': ['2020-01-01', '2020-10-01', '2021-01-01', '2021-10-01'],
'ID': [101, 101, 102, 102],
'number': [10, 10, 11, 11]})
# currently looking like this
Date ID num
因此,我尝试使用pandas而不是for循环来计算给定年份范围内的电影数量。假设按数据框有2列,'year‘是第2列的列名
我使用for循环解决了这个问题,但是如果只使用pandas,我该怎么做呢?
def movie_made(beginning, end):
movie = pd.read_scv('title.csv')
count = 0
for i in move['year']:
if beginning <= i and end <=i:
count = count + 1
我有一个pandas数据帧,它的列名如下: id name ... class maths_marks1 maths_marks2 eng_marks1 eng_marks2 现在我想创建多索引列,如下所示:第一列是id,因此它保持原样,然后是maths和eng在level0中,marks1和marks2在level1中,其余列在student_data下。因此,我的最终数据帧应该如下所示: student_data maths eng
id name ... class marks1 marks2 marks1 marks2 请注意,...表示在name和clas
我在pandas数据框(使用PyCharm)中有一列包含值:
Colour
-----
Red
Green
Green
Blue
Red
但我想将它分成几列,标题为"Red“、"Green”、"Blue“,然后将值设置为”yes“或”no“。
Red Blue Green
--------------
Yes No No
No No Yes
No No Yes
No Yes No
Yes No No
我正在尝试使用一个循环来读入多个CSV(目前是这样,但是将来会把它和xls混合在一起)。
我希望pandas中的每个数据框都具有相同的名称,但不包括我文件夹中的文件扩展名。
import os
import pandas as pd
files = filter(os.path.isfile, os.listdir( os.curdir ) )
files # this shows a list of the files that I want to use/have in my directory- they are all CSVs if that matters
# i wa
我有一个包含多个选项卡的Excel工作簿。每个选项卡都具有与所有其他选项卡相同的标题集。我希望将每个选项卡中的所有数据合并到一个数据框中(而不是重复每个选项卡的标题)。
到目前为止,我已经尝试过了:
import pandas as pd
xl = pd.ExcelFile('file.xlsx')
df = xl.parse()
可以为parse参数使用一些意味着“所有电子表格”的东西吗?或者这是错误的方法?
提前感谢!
更新:我试过了:
a=xl.sheet_names
b = pd.DataFrame()
for i in a:
b.append(xl.parse