我正在对大量的列联表进行费舍尔精确测试,并将p-val保存到生物信息学问题中。其中一些列联表很大,所以我已经尽可能地增加了工作空间;但是当我运行以下代码时,我得到一个错误:
result <- fisher.test(data,workspace=2e9)
LDSTP is too small for this problem. Try increasing the size of the workspace.
如果我增加工作区的大小,我会得到另一个错误:
result <- fisher.test(data,workspace=2e10)
cannot allocate memo
我想检查我的DataFrame是否包含我指定的所有列。当然,我可以用下面的代码来完成它,但我觉得应该可以在一行中实现。
using DataFrames
bools = Array{Bool}([])
df = DataFrame(A=[1,2], B=[3,4], C=[5,6])
for name in ["A", "B"]
push!(bools, name ∈ names(df))
end
false ∉ bools
我有一个巨大的矩阵,并希望排序的列在适当的速度/内存效率。是否可以对Julia中矩阵的列使用就地排序?例如,以下列矩阵为例:
julia> M=Matrix{Int}(3,3);
julia> for i = 1:size(M)[1]
for j = 1:size(M)[2]
M[i,j]=3*(j-1)+i
end
end
julia> M
3×3 Array{Int64,2}:
1 4 7
2 5 8
3 6 9
我想对列使用就地排序来获得矩阵。
3×3 Arra
以下函数返回一个包含两列的data.frame:
fetch_count_by_day=function(con){
q="SELECT t,count(*) AS count FROM data GROUP BY t"
dbGetQuery(con,q) #Returns a data frame
}
T是一个日期列,因此输出如下所示:
t count(*)
1 2011-09-22 1438
...
我真正感兴趣的是给定日期的任何记录是否已经存在;但我也将使用计数作为健全性检查。
在C++中,我会返回一个std::map<
我正在构建一个推荐系统,我正在为该系统构建一个联想表,以了解产品之间的关联。 我的权变表如下所示,比方说Tble-1: a b c d
a 2 1 1 1
b 1 2 2 0
c 1 2 2 0
d 1 0 0 1 这是一个熊猫数据帧。 由于我正在处理流数据,因此每当我获得新数据时,我都需要更新此列联表。 假设我得到了新的列联表,比方说表2: a b c e
a 2 1 1 4
b 1 1 2 0
c 1 2 4 2
e 1 3 0 4 我需要添加两个联想表,即Table-1 + Table-2,其结
我将一个表从SQL数据库导入到一个数据帧中,现在我正尝试通过describe()获取有关该数据帧的统计信息。我也尝试过head()。两者都会返回一个错误"ERROR: UndefVarError: describe not defined"。 我已经添加并导入了DataFrames包来解决这个问题,但它不起作用。 下面是我导入数据帧的方式: using Pkg
Pkg.add("ODBC")
Pkg.add("DataFrames")
using ODBC, DataFrames
db = ODBC.DSN(connection_str