我想从字符向量中创建所有可能的5值排列。在置换之后,我想创建一个新列来确定每一行是否“兼容”。我有一个现有的数据框架,它确定值的组合是否兼容。我想从现有的数据框架中获取信息,并将其扩展到经过修改的数据中。
为了进一步解释,下面是我的现有数据框架的一个示例,它包含有关值是否兼容的信息:
Ind1. Ind2. Ind3. Ind4. Ind5. Compatible
A B C D E NO
A B C D F NO
A B C D G NO
A
假设我有这样一个数据框架:
A B C
1 0 1
0 1 1
1 0 0
我希望使用dplyr (或其他库)生成以下导数:
A B C AB AC BC
1 0 1 0 1 0
0 1 1 0 0 1
1 0 0 0 0 0
因此,我希望在数据帧中自动创建新列,其中它们的值将是初始列集的乘积(因此在本例中,每一行有3个产品- A*B、A*C和B*C)。要点是自动完成这一任务(我有6列,不能对所有组合进行编码)。自动创建的列的名称应该有一些命名方案,因为我以后需要对它们进行筛选。
我想在我的熊猫数据框架中添加一个新的列col,它将被计算为:
select count(distinct ITEM) as col
from base_data
where STOCK > 0
group by DEPT, CLAS, DATE;
我正在做的事
assort_size = base_data[(base_data['STOCK'] > 0)]\
.groupby(['DEPT','CLAS','DATE'])['ITEM']\
.transform('nunique')
我想将一个新的列添加到我用assign()创建的数据框架中。
varname <- "vehicles"
assign(
x = varname,
value = cars
)
get(varname)
get(varname)$AnotherCol <- "Test"
但是当我运行这个代码时,我会得到这个错误。
Error in get(varname)$AnotherCol <- "Test" :
could not find function "get<-"
如何将列添加到使用as
我有一个数据网格,两个文本框&一个按钮.In第三个文本框,我想要显示数据网格中一列的总和。网格中的数据在单击按钮时填充,具体取决于文本框中的值。但是直到我在创建完成时获得值,我才会得到total.If I do calculateTotal() on按钮单击M not getting total.what can I
我有一个数据框架"MYdata“,并希望将其分割为创建三个新的数据集"test_1”、"test_2“和"test_3”。第一个"test_1“应该只包含来自"MYdata”的第一列,第二个数据集应该只包含第二列等等。我正在尝试这样做:
for (i in 1:3)
{
test_[i] <- MYdata[i]
}
但我得到以下错误消息:“test_i <- MYdatai中的错误:对象'test_‘未找到”
有什么想法吗?
我有一个大的数据帧。我想要做一个循环语句,其中它将分配数据的每一列到一个以其列标题命名的varible中。
在我创建的代码中,在执行循环语句之前在控制台中键入name1时,它将显示列的名称,例如"Company“。但是,如果我在循环语句中使用它,而不是使用"Company“作为变量名,它使用"name1”。
这是我创建的代码
df = read.csv('fileName.csv')
a = 0
b = 1
while (a!=ncol(df)+1){
name = colnames(df)
name[b] = df[b]
a = a+1
我有一个由n列组成的数据框架,其中一个是food。food列可能的值有apple、tomato、cabbage、sausage、beer、vodka、potato。我想在我的data数据框中创建一个新列,如下所示:如果是food==apple、food==tomato或food==potato,则分配vegetables,否则只分配data$food值。
所以,如果数据帧是这样的:
ID ..(some other columns).. food
1 apple
2 sausage
3
我有一个csv文件,其中包含行的数据。我希望通过将所有行传输到列来创建数据框架,我已经提供了以下示例数据框架来复制csv中的数据。
data = pd.DataFrame()
data ['Name'] = ['A','B','C']
data ['Home'] = ['Z','Y','X']
data ['1-0'] = [2.2,3.1,3]
data['2-0'] = [1.5,5,8]
data ['2-1']
我正在尝试开发一个文档分类器。我是python的新手,我正在尝试找出创建存储结构的最佳/标准方法。我正在寻找引入机器学习算法的数据集。
我正在摄取txt文件,我想让一列保存整个文档内容,第二列保存类(在我的例子中是0-1)。我最初尝试创建一个列表列表--比如list ["the skye is blue",1]["the sky is grey",1]["the sky is red",0]。
我还试图创建一个pandas Dataframe,因为我认为它的结构可能更适合数据操作。
我希望基于R中的2列合并2个数据帧,这两个数据帧称为popr和data列,它们共享相同的2个变量: USUBJID和TRTAG2N,这两个变量是我想要组合这两个数据帧的变量。
当我只尝试根据一列进行合并时,合并函数就能工作:
merged <- merge(popr,droppedcol,by="USUBJID")
当我试图通过使用2列合并并查看数据框架“工期”时,表是空的,没有值,只有列标题。它说“表中没有可用的数据”。
我的任务是在R中复制SAS代码:
data duration;
set pop combined1 ;
by usubjid trtag2n;
我有一个数据框架,我称之为"abs.data“,包含265个列(变量)。我有另一个数据框架,我称之为"corr.abs“,它包含"abs.data”中列子集上的更新数据。两个数据帧都有相同的行数,n=551。我需要将"abs.data“中的列替换为与列名匹配的"corr.abs”中的正确观察。我试过以下几种方法
abs.samps <- colnames(abs.data) #vector of column names in abs. data
corr.abs.samps <- colnames(corr.abs) #vector of
我有两只不同的熊猫
列id(int)、名称(字符串)、描述(字符串)的df_1
和df_2列id(int)、name(string)、description(string)
来自df_1和df_2的名称只是相似的,但不是相同的,我想用df_1的id连接这两个数据帧。
我为这两个数据类型创建了一个名为splitted_name的新列,其中包含来自name列的单词列表。
现在,我想检查df_1.splitted_name中至少有一个元素在df_2.splitted_name中。我怎么才能在潘达斯完成这件事?
样本数据:
df_1
name na
我会在序言中说我对蟒蛇很陌生。
我有一个数据库,需要使用访问它。这是最简单的部分。我已经创建了表名和列名等,例如:
c.execute("CREATE TABLE Tanks \
(ID INT PRIMARY KEY NOT NULL,\
...
DIR_Radius INT NOT NULL,\
DIR_Dish1 INT NOT NULL,\
DIR_Dish2 INT NOT NULL,\
DIR_Length INT NOT NULL,\
诸若此类。因此,我想要做的是使用列标题作为变量,即
Dish1 = 'DIR_Dish1'
但是,正如您在python中可
如何将函数应用到julia dataframe中的某些/所有列(按列排列)?我试图处理的用例是简单的类型解析和处理。例如,我想从字符串到int解析这个示例的数据格式的列。
df = DataFrame(a = ["1","2", "3"], b = ["4","5","6"])
# something like this works but destroys the structure of the dataframe
[parse.(Int64, col) for col in eachcol(