我在pandas中有一个pyspark数据帧。我想要创建/加载这个数据帧到hive表中。
pd_df = pandas data frame
id int64
TEST_TIME datetime64[ns]
status_time object
GROUP object
test_type object
dtype: object
id TEST_TIME status_time GROUP
这是我试图转换为Pandas的代码:
select
geo,
region,
sum(case when year(txn_date)>=2020 then revenue else 0 end) as ytd_rev,
sum(case when year(txn_date)=2019 then revenue else 0 end) as py_ytd_rev,
sum(profit) as total_profit
from table
group by 1,2
假设输入数据框架的列如下: geo _
输出数据帧中的列: geo \ ytd_rev \##.‘> py_yt
我尝试使用pandas dataframe来检索结果,以获得相同的结果
这是我的SQL查询:
SELECT strftime('%m', date_report) as month, count(*) as total_infector
from cases
where has_travel_history = 't' and age >= '50'
group by month
order by total_infector desc limit 2
使用pandas数据帧:
import pandas as pd
df = pd
我正在尝试使用pandas python dataframe对一个组进行线性回归:
这是数据帧df:
group date value
A 01-02-2016 16
A 01-03-2016 15
A 01-04-2016 14
A 01-05-2016 17
A 01-06-2016 19
A 01-07-2016 20
B 01-02-2016 16
B 01-03-2
我有一个关于熊猫数据帧的问题,我想用滴答源(kdb表)中的时间来丰富它。
Pandas DataFrame
Date sym Level
2018-07-01 USDJPY 110
2018-08-01 GBPUSD 1.20
我想要用计时来丰富这个数据框架(对于给定的货币对,当水平被跨越时,第一次是在给定的日期)。
from qpython import qconnection
from qpython import MetaData
from qpython.qtype import QKEYED_TABLE
from qpython.qtype i
我有一个JSON文件,我将其转换为pandas数据帧,
# Bring in data
audit = pd.read_json('audit_2018-03-02.json')
现在,我有一些列,这些列的值是一个字符串列表。
foo
[By Audience, By Vendor]
[By Month, By Keyword, By Ad Group, By Service]
[By Month, By To Date, By Keyword, By Ad Group]
我正在尝试遍历foo列,并从该列创建一个数据框。
我试过了,
list
给定一个Pandas数据帧df
date numeric_field
0 2019-06-06 n
1 2019-06-07 n
2 2019-06-08 n
我想在日期上执行自连接,并将函数应用于numerical_field。
在SQL中,我会这样做:
SELECT a.date,
FUN(b.numeric_field))) new_field
FROM df a
INNER JOIN df b
ON b.date < a.date
我有一份字典清单。基本上,它只是JSON的一大块。下面是列表中的一个字典: {'id': 391257, 'from_id': -1, 'owner_id': -1, 'date': 1554998414, 'marked_as_ads': 0, 'post_type': 'post', 'text': 'Весна — время обновлений. Очищаем балконы от старых лыж и API от устаревших в
我正在尝试使用python读取我的csv文件,将特定的列提取到一个pandas.dataframe中,并显示该数据帧。但是,我没有看到数据框,我收到Series([],dtype: object)作为输出。下面是我正在使用的代码:我的文档包含: product sub_product issue sub_issue consumer_complaint_narrative
company\_public\_response company state zipcode tags
consumer\_consent\_provided submitted\_via date
我想基于线性回归循环创建一个python pandas dataframe列
这是源数据pandas dataframe df:
campaign | date | shown
A 2015-10-11 363563
A 2015-10-12 345657
A 2015-10-13 345346
B 2015-10-11 23467
B 2015-10-15 357990
我正在尝试使用.loc来选择数据帧的一个子部分: for date in months.index:
labels = list(df.index.values)
X = df.loc[(date - relativedelta(months=+3)):date.intersection(labels), ['A', 'B']]
Y = df.loc[(date - relativedelta(months=+3)):date.intersection(labels), 'C']
months.at[date, '
我的数据看起来如下所示。我正在尝试aggregate(sum)我的金额列基于日期和组在pandas数据中的存在。我成功地aggregate了这个专栏。但是,我不知道如何传递来根据分组日期和组来预测未来的值。下面是聚合的代码。注意:我是python的初学者,请用代码提供说明。
数据帧
import pandas as pd
data = {'Date':['2017-01-01', '2017-01-01','2017-01-01','2017-01-01','2017-01-01','201
我最近问了关于如何合并数据帧的问题,问题是除了我之前问的问题之外,我还需要这个问题。(上一个问题: )
我需要解决这个问题。
我需要从两个数据帧构建一个完整的数据帧,但如果需要的话,只包括来自第二个数据帧的某些信息。
示例:
DF1:
MATERIAL_N° Description DATE DUE
0 123123300 Lightbulb X 01/05/2018
1 220466 Lightbulb Y 04/04/2018
2 220000 Lightbulb Z
我将一个包含150,000行的csv文件读入到pandas数据帧中。此数据帧有一个日期为yyyy-mm-dd格式的字段Date。我想从其中提取月份、日期和年份,并分别复制到数据帧的列Month、Day和Year中。对于几百条记录,以下两种方法可以正常工作,但是对于150,000条记录,这两种方法都需要花费非常长的时间来执行。对于100,000+记录,有没有更快的方法?
第一种方法:
df = pandas.read_csv(filename)
for i in xrange(len(df)):
df.loc[i,'Day'] = int(df.loc[i,'Da
我有一张桌子,看起来像这样。从CSV文件中读取,所以没有关卡,没有花哨的索引,等等。
ID date1 amount1 date2 amount2
x 15/1/2015 100 15/1/2016 80
我拥有的实际文件是date5和amount 5。我如何将其转换为:
ID date amount
x 15/1/2015 100
x 15/1/2016 80
如果我只有一个变量,我会使用pandas.melt(),但是有了两个变量,我真的不知道如何快速完成。
我可以手动导出到内存中的sqlite3数据库,
在sql中,从表中选择a.*,count(a.id) as N。group by a.name将给我一个新列‘N’,其中包含符合我的group by规范的计数。
然而,在pandas中,如果我尝试df‘’name‘.value_counts(),我得到的是计数,而不是原始数据帧中的列。
有没有办法在单个步骤/语句中将计数作为原始数据帧中的一列?