我将一个表从SQL数据库导入到一个数据帧中,现在我正尝试通过describe()获取有关该数据帧的统计信息。我也尝试过head()。两者都会返回一个错误"ERROR: UndefVarError: describe not defined"。 我已经添加并导入了DataFrames包来解决这个问题,但它不起作用。 下面是我导入数据帧的方式: using Pkg
Pkg.add("ODBC")
Pkg.add("DataFrames")
using ODBC, DataFrames
db = ODBC.DSN(connection_str
我一直在编写一个基于这个答案()的代码,以找出哪一天早上的风速会增加。
这是我的数据样本
hd,Station Number,Year Month Day Hours Minutes in YYYY,MM,DD,HH24,MI format in Local time,Year Month Day Hours Minutes in YYYY,MM,DD,HH24,MI format in Local standard time,Year Month Day Hours Minutes in YYYY,MM,DD,HH24,MI format in Universal coordinated t
我有以下数据,我试图转换它的数据类型。
In [5]:
df = pd.io.json.json_normalize(data)
df.head()
Out[5]:
a b c d e f g
2014-09-10 5.38 5.45 5.35 1769 10000002 34 6651569991
2014-09-11 5.44 5.48 5.38 1863 10000002 34 8147338425
20
我目前正在选修一个数值方法课,并编写了一个函数来实现Gauss消除。我注意到,由于某些原因,在对numpy数组执行操作时,python无法将整数转换为浮点数。所以我要得到零而不是浮点数。下面是执行Gauss消除的代码段
for k in range(h - 1):
p = k
B = a[k, k]
for i in range(k+1, l):
if a[i, k] > B:
B = a[i, k]
p = i
if p != k:
我正在使用Pandas,使用上的UCI存储库信用筛选文件。
数据包含一些缺失的值,我希望根据列的数据类型执行不同的估算策略。例如,如果列是数字,则使用中间推算,但如果它是类别(如“无值”)的绝对替换。
我运行这段代码来标识数字列:
#Import data
import pandas as pd
data = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-
databases/credit-screening/crx.data', header=None)
#Imputation
import num
我有一个数据帧,它有3列,只有连续的数据。我想要将它们聚集在一起,但不是通常的方式(这是为了用我制作的模型测试性能)。相反,我想独立地对列进行聚类,然后用它进行计算(稍后我会解释) 通常我会这样做: X = rand(3, 1000)
r = kmeans(X, 3; maxiter=200) 就是这样。 但在这里我想说: for each columns
r = kmeans(X[thecolumns], 3; maxiter=200) 有3列相互独立的集群 函数kmeans请求一个AbstractMatrix,似乎我不能给它一个一维数组。我该怎么做呢? 谢谢
我试图在python中找出数据框中某些列的平均值,但最终得到了一些非常奇怪的数字。有人能给我解释一下吗?我想要a,b,c列的平均值。
k = pd.DataFrame(np.array([[1, 0, 3,'kk'], [4, 5, 6,'kk'], [7, 20, 9,'k'],[3, 2, 9,'k']]),
columns=['a', 'b', 'c','type'])
k
它会返回
a b c type
我试过这些:,。
我的dataframe都是字符串,但由于我在其他地方读到的原因,dtype是对象。
这些栏是食品中微量营养素的单位,如下所示:
Life-Stage Group Arsenic Boron (mg/d) Calcium (mg/d) Chromium Copper (μg/d) \
0 <= 3.0 y nan g 3 mg 2500 mg nan g 1000 μg
1 <= 8.0 y nan g 6 mg 2500 mg n
我想要计算在数据帧中没有列出值的次数。
1 A
2 A
3 B
4 A
5 C
6 B
7 C
8 A
9 B
对于A来说,这意味着:
1-2: 0次
2-4: 1次
4-8: 3次
对于B来说,这意味着:
3-6: 2次
6-9: 2次
对于C来说,这意味着:
5-7: 1次
有什么聪明的方法来对付熊猫吗?索引实际上是时间戳,但我认为这对问题并不重要。
当我使用一些库时,我得到一个错误信息
AttributeError: 'SingleBlockManager' object has no attribute 'to_dense'
to_dense是一种用于数据帧的方法,因此我假设在我的例子中SingleBlockManager应该是一种数据帧。有没有人知道Pandas中的SingleBlockManager是什么,这样我就可以猜出我的错误在哪里了?这是错误消息的最后一点。
/users/xx/xxxx/pyenvs/xx/lib/python2.7/site-packages/pandas-0.16.2+xx