在Python大熊猫中,您可以向df.replace传递一个字典,以便用对应的值替换每个匹配的键。我经常使用这个特性来代替西班牙语中的缩略语,因为它会使句子标记器变得混乱。
朱莉娅身上有类似的东西吗?或者更好的,这样我(和未来的用户)就可以从经验中学习到如何在Julia漂亮的、表现性语法中实现这样一个函数的想法了吗?
谢谢!
编辑:根据请求添加一个示例
输入:
julia> DataFrames.DataFrame(Dict("A" => ["This is an ex.", "This is a samp.", "This
我想优化(在)朱莉娅DataFrame的列。为此,我希望在优化之前和之后获得DataFrame的大小。 下面是一个DataFrame示例: rows, columns = 10_000, 50
df = rand([x for x in "ABCDE"], rows, columns) |> DataFrame 此df对象的大小... sizeof(df) 尺寸是24。 但是,当我对列的大小求和时,大小是不同的… sum([sizeof(df[x]) for x in names(df)]) 列大小的总和是2000000。 这就是优化。 for i = names(df
我想检查我的DataFrame是否包含我指定的所有列。当然,我可以用下面的代码来完成它,但我觉得应该可以在一行中实现。
using DataFrames
bools = Array{Bool}([])
df = DataFrame(A=[1,2], B=[3,4], C=[5,6])
for name in ["A", "B"]
push!(bools, name ∈ names(df))
end
false ∉ bools
假设我有以下数据:
using DataFrames
a = DataFrame(A = randn(1000), B = randn(1000), C = randn(1000));
N = 1000;
就像我想将每一列除以N(如果是数字的话),所以在R中,我将执行以下操作(使用dplyr):
a <- a %>% mutate_if(is.numeric, function(x) x/N)
朱莉娅身上有这样的东西吗?
(我试图避免for循环,并逐列执行操作)
如何将函数应用到julia dataframe中的某些/所有列(按列排列)?我试图处理的用例是简单的类型解析和处理。例如,我想从字符串到int解析这个示例的数据格式的列。
df = DataFrame(a = ["1","2", "3"], b = ["4","5","6"])
# something like this works but destroys the structure of the dataframe
[parse.(Int64, col) for col in eachcol(
我对朱莉娅非常陌生,我认为自己一般都是编程初学者。我用MATLAB和Python编写了一些代码。
我有一堆CSV,我想把它们结合起来做数据分析。我的数据如下所示:
using DataFrames
using Plots
using CSV
using Glob
using Pipe
file_list = glob("*.csv") #list of all csvs in dir
df = @pipe file_list[1] |> CSV.File(_,header = 2) |> DataFrame #Read file
# I could have us
我希望把问题弄清楚,但让我在这里更好地解释一下:我有这个数据框架: m = DataFrame(
x = [1,2,3],
y = [[1,2,3],[4,5,6],[7,8,9]]) 我的目标是得到列z,它是每个y数组的平方加上对应于列中位置的x字符串。也许你可以这样做: m = DataFrame(
x = [1,2,3],
y = [[1,2,3],[4,5,6],[7,8,9]],
z = [[2,5,10],[18,27,38],[52,67,84]]) 我可以使用以下代码在R中完成此操作: m <- m %>% mutate(z = map2(x,y, ~map2_d