我正在使用RMySQL包将数据从R导出到MySQL数据库。我面临的一个大问题是重复:我有太多具有相同值的条目。系统自动生成结果并将数据帧插入到数据库中。
数据库中的当前表:
Name Balance
Bob 100
Ted 150
Carl 130
我在R中也有一个反映余额变化的数据帧(df):
> df
Name Balance
[1] Bob 100
[2] Ted 150
[3] Bill 50
要插入数据库的数据:
Name Balance
Bill 50
现在插入后,Table应该如下所示:
我有一个如下所示的数据框架,并希望将此数据插入到cassandra表中
+---------+------+-----------+
| name | id | city |
+---------+------+-----------+
| sam | 123 | Atlanta |
| John | 456 | Texas |
+---------+------+-----------+
我使用下面的代码,但它只插入最后一行。
df.write.format("org.apache.spark.sql.cassandra")
我从下面的excel表格创建了一个数据帧:
每一行都是一个单独的"mon“,有它自己的特定统计信息。我为mons创建了一个类,但现在我不确定如何将它们分开,并按名称分别调用它们。
最终,我希望能够调用Mon1和Mon2,并创建一个新的类,它将包含它们基于其统计数据进行战斗的逻辑。
import pandas as pd
df = pd.read_excel(r'C:\Users\ericb\Desktop\Simulator.xlsx')
for row in df.itertuples(index=False):
print(row)
我刚刚开始使用R,并想使用ACF查看数据中的自相关。我的数据帧(GL)如下所示
GL
well year month value area
684 1994 Jan 8.53 H
684 1994 Feb 8.62 H
684 1994 Mar 8.12 H
684 1994 Apr 8.21 H
684 1995 Jan 8.53 H
684 1995 Feb 8.62 H
684 1995
我对R比较陌生,还在摸索如何从数据帧中过滤数据。我有一个由406行和48列组成的数据帧,但缺少一些数据:
set.seed(123)
mydata <- data.frame(matrix(rnorm(406*48), nrow = 406, ncol = 48))
diag(mydata) <- NA
mydata[10:20,25:40] <- NA
我现在要做的是遍历每一行,并选择所有<=为零的条目。我想将这些条目存储在一个新的变量中。我的代码不工作,如下所示:
newdata <- c()
#go through each row
for (j in 1:
我有一个数据帧列表,我希望将该列表中每个数据帧的摘要统计信息返回到一个新的数据帧中-能够选择每个初始数据帧中的列(值)来返回摘要统计信息。输出数据帧中的每一行对应于初始列表中的每个数据帧。 我可以使用for循环获得汇总统计信息输出,但它只会给我列表中最后一个数据帧的汇总统计信息,而不是列表中的所有数据帧。下面是一个for循环示例,它为我提供了列表中最后一个数据帧的输出统计信息。 for i in step2:
step3=i.describe() #gives me a single df of the last item (dataframe) in my list 下面是我的列表
我在R中有以下数据帧,在每一行中都有重复的字符。
i01 A A A A A A
i02 B C D B C D
i03 E F E F E F
i04 G G G G G G
i05 H I J K L M
i06 N O P N O P
我只想在整个数据帧的每一行中保留唯一的分数,并将重复的分数替换为空白或NA。就像这样:
i01 A NA NA NA NA NA
i02 B C D NA NA NA
i03 E F NA NA N
我有下面的代码,我试图访问数据帧中特定列的每一行,并将该值签入到另一个数据帧中,以便在第一个数据帧的column4中插入值 for (i in 1:length(DF$Date)){
if (DF$column1[i] %in% DF_2$column_1){
DF$column4[i] <- "YES"
}
} 代码运行得很好,因为我有数百万条记录,执行任务需要大量的时间。 如果有人有一个有效的方法在短时间内解决这个问题,那将是很有帮助的。
我是R的新手,所以我在问一个基本的问题。
我有两个数据帧
数据帧1包含匹配对:
Factor1 Factor2
A D
B E
C F
数据帧2包含不同样本中不同因素的水平:
Sample1 Sample2
A 10 0
B 10 0
C 0 0
D 0 10
E 0 10
F 0 0
我正在尝试遍历第一个数据帧。对于数据帧1中的每一行,如果样本1中factor1的电平大于5,并且样本2中因子2的电平大于5,则在数据帧1中添加第三列中的TRUE,否则添
我有一个非索引的数据框架(从csv文件中读取)如下:
John Mullen 12/08/1993 Passw0rd
Lisa Bush 06/12/1990 myPass12
Maria Murphy 30/03/1989 qwErTyUi
Seth Black 21/06/1991 LoveXmas
我想根据特定的正则表达式验证每一行的每个单元格。
确认出生日期为dd/mm/yyyy
使用下面的PassRegex验证密码
使用NameRegex验证名字/姓氏
下面用__替换名字中的‘
等等。
然后将任何单元格不验证的行移动到新