我有一些分类预测因子(即变量)为0& 1的pandas数据帧,以及一些数值变量。当我把它放到一个stasmodel中时:
est = sm.OLS(y, X).fit()
它抛出:
Pandas data cast to numpy dtype of object. Check input data with np.asarray(data).
我使用df.convert_objects(convert_numeric=True)转换了DataFrame的所有数据类型
在此之后,所有数据帧变量的数据类型都显示为int32或int64。但在最后,它仍然显示dtype: object,如
我在pandas中运行了一个很长的ETL管道。我必须创建不同的pandas数据帧,并且我想为一些数据帧释放内存。 我一直在阅读如何释放内存,我发现运行此命令不会释放内存: del dataframe 下面是这个链接:How to delete multiple pandas (python) dataframes from memory to save RAM?,其中一个答案说del语句并不删除实例,它只是删除了一个名称。 在答案中,他们说将数据帧放在列表中,然后删除列表: lst = [pd.DataFrame(), pd.DataFrame(), pd.DataFrame()]
del
我有一个很大的SPSS文件(包含100多万条记录,列略低于150列),我想将其转换为Pandas DataFrame。
将文件转换为列表需要几分钟,将其转换为数据帧需要几分钟,设置列头也需要几分钟。
有没有什么我遗漏的优化方案呢?
import pandas as pd
import numpy as np
import savReaderWriter as spss
raw_data = spss.SavReader('largefile.sav', returnHeader = True) # This is fast
raw_data_list = list(raw_d
我有一个由不同数据类型的45个变量组成的pandas数据框架,我正在使用'dython.nominal‘包来创建每个变量之间的关联矩阵。
然后我想:
答:子集我的数据帧(按地理位置过滤),并在该子集上计算关联矩阵,然后
B:使用在步骤A中创建的数据帧中的目标变量的列,创建第二个pandas数据帧并添加到第二个pandas数据帧中。
然后,得到的数据帧将是一个相关性矩阵,其中列索引是地理位置,行索引是其他44个变量。
到目前为止,我拥有的代码是:
import pandas as pd
from dython.nominal import compute_associations
t
我正在尝试oneHotEncode我的Pandas数据帧的分类变量,其中包括分类变量和连续变量。我意识到使用pandas .get_dummies()函数可以很容易地做到这一点,但我需要使用管道,以便稍后可以生成PMML文件。
这是创建映射器的代码。我想要编码的分类变量存储在一个名为'dummies‘的列表中。
from sklearn_pandas import DataFrameMapper
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
给定一个数据帧列表,我希望迭代地合并它们并返回单个数据帧。输入:frames (熊猫数据框列表)和on_columns (包含要合并的列名的字符串或字符串列表)。如何使用df.merge完成此操作?“给定数据帧列表,以迭代方式合并它们并返回单个数据帧
"""HINT: Use slice on frames when iterating and merging.
Arguments:
frames {list} -- a list of pandas DataFrames
on_columns {string or list} -- a string
我想将数据帧的索引(行)从float64更改为字符串或unicode。
我以为这能行得通,但显然不行:
#check type
type(df.index)
'pandas.core.index.Float64Index'
#change type to unicode
if not isinstance(df.index, unicode):
df.index = df.index.astype(unicode)
错误消息:
TypeError: Setting <class 'pandas.core.index.Float64Index'&g