我尝试使用pandas dataframe来检索结果,以获得相同的结果
这是我的SQL查询:
SELECT strftime('%m', date_report) as month, count(*) as total_infector
from cases
where has_travel_history = 't' and age >= '50'
group by month
order by total_infector desc limit 2
使用pandas数据帧:
import pandas as pd
df = pd
我想计算一下“?”的出现次数。“成人”数据帧中所有变量的值。
dataset.workclass[dataset.workclass == '?'].count()
给我'workclass‘列的出现次数。
然而,当我这样做的时候:
for column in dataset:
dataset.column[dataset.column == '?'].count()
给了我一个错误:
'DataFrame' object has no attribute 'column'
我有一个看起来像这样的pandas数据帧:
A B C
1 2 =A2+B2
3 4 =A3+B3
我使用Python中的xlsxwriter将其写入Excel文件,并将数据框转换为Excel。现在,当我从Python中读取Excel时,我得到C2的值是0.0,而不是3 (=A2+B2)。但是,如果我手动打开Excel,公式就会被求值,并且在'C2‘中有'3’。所以这个问题发生在从代码中读取的时候。
在Python中,有没有一种方法可以读取带有公式作为值的Excel列?
我编写了一段代码来从数据帧中提取索引,但我不知道如何使用这些索引从原始数据帧创建另一个数据帧。 是否也可以缩短我当前的代码?它相当长。 EDITED== import pandas as pd
a = pd.DataFrame({"a":["I have something", "I have nothing", "she has something", "she is nice", "she is not nice","Me", "He"],
想知道如何在Python的Pandas中使用两个不同的数据帧来计算集合差值。
其中一个数据帧(df1)的格式为:
State City Population
NY Albany 856654
WV Wheeling 23434
SC Charleston 35323
OH Columbus 343534
WV Charleston 34523
并且第二数据帧(df2)是
State City
WV Wheeling
OH Columns
并且我需要一个返回以下数据帧的操作
我是python的新手,我对pandas的read_sql_table部分有一个问题。如果我只提供表名和来自sqlalchemy的引擎,它将读取数据,并且我能够打印数据帧头。如果我添加index_col和columns,它也能正常工作。只要我将CHUNKSIZE添加为10000,它就无法打印头部,并显示错误'generator‘object has no attribute ' head’
我有一个特定id的开始日期和结束日期(df_with_start_end),我尝试从另一个数据帧(df_dates)中找出具有相同id的其他日期在它们之间。应在新列中输入结果。
我的想法是使用唯一的ID迭代数据帧df_with_start_end,对于每个ID,我尝试分析在df_with_start_end的开始日期和结束日期内是否有来自df_dates的任何其他日期。
我的实现是这样的,但它不是这样工作的。
for k in df_with_start_end['ID']:
df_with_start_end[k]['FREE_PERIOD'] = d
我有两个熊猫数据框架,包含数百万行的巨蟒。我希望根据以下三个条件从第一个数据帧中删除行,该数据帧包含单词(以秒为单位):
如果单词出现在句子开头的一行如果单词出现在句子末尾的一行如果单词出现在句子的中间一行(确切的单词,而不是子集)
示例:
第一个Dataframe:
This is the first sentence
Second this is another sentence
This is the third sentence forth
This is fifth sentence
This is fifth_sentence
第二个Dataframe:
Second
forth
我有以下数据帧ds,它是通过.merge获得的
Date_x Invoice_x Name Coupon_x Location_x Date_y \
1 2017-12-24 700349.0 John Doe NONE VAGG1 2017-12-24
2 2017-12-24 700349.0 John Doe NONE VAGG1 2017-12-24
4 NaN NaN Sue Simpson NaN
Python 3.8,使用Pandas。 我正在尝试去掉pandas数据框列' data‘中负数的符号,只留下幅度,即所有值都是正数。本质上,将一列中的值乘以-1,但仅当它为负值时。这是比较容易的一点。然后在数据帧中创建一条它已被颠倒的记录。因此在本例中创建另一个名为"Tubes Inverted“列 #Check sign and create a column recording if this has been inverted.
num = df['DATA']._get_numeric_data()
我有一个文本文件mart_export.txt,其中包含两种不同类型的密钥,如下所示 Gene stable ID RefSeq match transcript
ENSG00000243959
ENSG00000206698
ENSG00000265684
ENSG00000251990
ENSG00000241552
ENSG00000050767 NM_173465.4 正如您所看到的,右侧列的大部分没有任何数据,但我正在尝试从两个列都有值的索引中构建一个新的pandas数据帧。到目前为止,这是我的脚本 #Put the biomart export in a pandas
晚上好!
我有一个类似的代码,我将粘贴下面,它有更多的数据,但前提是相同的。从这两个DataFrames中,我必须提取前五个值,但是当我处理数以千万计的条目时,我无法承受等待,有时长达一个小时的时间来计算整个DataFrame并返回前五个值。我也不能使用简单的Pandas DataFrames,因为它们超过了我的内存限制。有解决办法吗?
import random
import pandas
import dask.dataframe as dd
import time
# Random list from 1 to 10,000,000.
random_pool = [random.ran
我有一个pandas数据框架,结构如下: idx | flag | val
----------------
0 | a | 17
1 | a | 18
2 | a | 17
3 | a | 14
4 | a | 17
5 | b | 7
6 | b | 8
7 | b | 7
8 | b | 7 如何删除每个标志的前n个值?
我有一个结构如下的数据帧:
Name Month Grade
Sue Jan D
Sue Feb D
Jason Mar B
Sue Mar D
Jason Jan B
Sue Apr A
Jason Feb C
我想要得到在过去6个月中连续3个月获得D的学生名单。在上面的示例中,Sue将出现在列表中,因为她在1月、2月和3月获得了D。我如何使用Python、Pandas或Numpy来做到这一点?
假设有一个形状为(4000,13)的数据帧。假设数据帧“str_labels”中可能有"|“值。如何通过删除所有包含字符串值"|“的行(全部13列)来对pandas数据帧进行排序。示例: list(dataframe["str_labels"])=["abcd","aaa","op|gg","iku | gv"]
filtered_out = ["abcd", "aaa"] ## example code
dataframe["|" not in d