首页
学习
活动
专区
圈层
工具
发布

R 数据分析

(args[2]) 3 print('do a test') 比如在命令行输入”RCMD BATCH test.r 4 5“,就会生成一个名为4的文本文件,文件内容如下,程序打印的第二个参数是NA,实际上应该是...5]="--args" args[6]=="4" args[7]=="do a test" 2、dataframe 创建空数据框 # 创建0行0列的数据框 df_empty = data.frame()...# 创建和df有同样多的列,0行的数据框 > df_r = df[, FALSE] data frame with 0 columns and 4 rows # 创建一个行数为0,列数、列名和df相同的数据框...> df_c = df[FALSE, ] [1] one two three 0 行> (或0-长度的row.names) 创建非空数据框 # 指定列名 > df = data.frame(..., ...) : 变量的列数不对 其他 #数据框的长度是列的数目 > length(df) [1] 3 # 列数 > ncol(df) [1] 3 # 行数 > nrow(df) [1] 4 3、基本统计函数

1.6K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python:需求预估

    )[i] data_set = x[x[y] == k[0]] nrow_nb = data_set.iloc[:, 0].count() data_set.index...= ['actual', 'predict'] 这边稍微讲解一下,我认为的sklearn中DecisionTreeRegressor中比较终于的参数设置,criterion这边为模型优化的标准,常规的有...(z) 这边写了检查函数,检查了分别0.1~1,以0.1为间隔的情况下的分割点,每个分割点下预测正确的数量/所有统计的样本数,也就是下面的accuracy. ?...---- # case 2 test_data = combined_date aimed_data = test_data[test_data['predict']>0] k1=aimed_data[...:%d' %(k1) print '所有预测可能下单用户数:%d' %(k2) 因为这边需要对用户营销,所以更关系topN的转化率,需要看一下实际正样本被覆盖了多数,以上即为code,这边的效果值为98.7%

    63220

    python爬取B站《元龙》评论

    1、前期准备 首先我们先进入到《元龙》的页面 image.png 接下来按F12进入开发者模式 image.png 接下来点击headers,我们发现了一个url,这个url里面就存在我们做需要的评论的数据...=1&_=1631449433781 image.png 把这个url复制到浏览器打开可以看到里面的json,但是如果直接复制到浏览器页面会出错,需要对这个url进行处理,处理成https://api.bilibili.com...中所需内容进行提取,本次所需内容为:用户名以及评论内容 def parserHtml(html): try: s = json.loads(html) except:...) dataFrame.to_csv(r"E:\test.csv",mode='a', index=False, sep=',', header=False) 爬取结果如下 image.png...= pd.DataFrame(urating) print(dataFrame) dataFrame.to_csv(r"E:\test.csv",mode='a', index=False

    53540

    R3数据结构和文件读取

    组合paste0)#注释1seq()函数可以生成-3到3之间的100个数的等差数列,代码如下:seq 的变量名,第一个参数表示起始值...第一次出现视为没有重复)length(X判断向量长度,连接paste0(rep(“studengt”,length(x),x)3个向量不一样长时,谁长取谁),unique去重复,输出的是数据,duplicated...-2## 4 gene4 down -4#3.数据框属性#dim(df1)#统计行列数## [1] 4 3nrow(df1)#统计行数,paste0(“a”,1;nrow(a))##...按坐标df1[2,2]## [1] "up"df1[2,]#取[行,]继承行名和列名,筛选test中,Species列的值为a或c的行,test[test$Species %in% c("a","c")...它可以接受任何单个字符或字符串作为参数,用于将文本数据内容分割成列。常见的分隔符包括逗号(,),制表符(\t),分号(;)等。例如,当读取以逗号分隔的CSV文件时,应该将sep参数设置为逗号(,)。

    3.5K00

    Python库的实用技巧专栏

    test2 # counter相减: 相同Key值相减, 不同Key用0代替再相减, 结果只保留value是正值的key result3 = test1 & test2 # counter交集: 取相同...0, 否则设置为None, 如果明确设定header=0就会替换掉原来存在列名, 如果是list表示将文件中的这些行作为列标题(意味着每一列有多个标题), 介于中间的行将被忽略掉, 注意:如果skip_blank_lines...(数字可以对应到指定的列)或者是字符传为文件中的列名, 例如:usecols有效参数可能是 [0,1,2]或者是 [‘foo’, ‘bar’, ‘baz’], 使用这个参数可以加快加载速度并降低内存消耗...在没有列标题时, 给列添加前缀 mangle_dupe_cols : bool 重复的列, 将多个重复列表示为"X.0"..."...如果一行包含太多的列, 那么默认不会返回DataFrame, 如果设置成False, 那么会将改行剔除(只能在C解析器下使用) warn_bad_lines: bool 如果error_bad_lines

    2.9K30

    独家 | R语言中K邻近算法的初学者指南:从菜鸟到大神(附代码&链接)

    把模型的度量得分加和并求K层的平均值 如何选择K? 如同你注意到的,交叉验证比较的一点是如何为K设置值。我们记总样本量为n。从技术上来看,K可设置从1到n的任意值。...这个可能是参数和非参数模型中潜在的数学和统计假设导致的。 2. 数据分组 如上所述,我们需要将数据集进行分组,分为训练集和测试集,并采取k层交叉验证来选择最佳的ML模型。...20% test index = round(nrow(banking)*0.2,digits=0)#sample randomly throughout the dataset and keep the...total number equal to the value of index test.indices = sample(1:nrow(banking), index)#80% training...- calc_error_rate(predicted.value=pred.YTest, true.value=YTest) knn_test_error [1] 0.1100995 测试误差为0.11

    1.4K10
    领券