首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    使用Python抓取欧洲足球联赛数据

    数据的来源多种多样,以为我本身是足球爱好者,而世界杯就要来了,所以我就想提取欧洲联赛的数据来做一个分析。...: 首先我们定义了一个get_players方法,该方法会返回某一请求页面上所有球员的数据。...为了得到所有的数据,我们通过一个for循环,因为要循环各个联赛,每个联赛又有多个分页,一般情况下是需要一个双重循环的: for i in league: for j in range(0, 100...comprehension可以很方便的通过构造一个列表的方式来减少循环的层次。...下一步做什么 现在我们拥有了详细的欧洲联赛的数据,那么下一步要怎么做呢,我推荐大家把数据导入BI工具来做进一步的分析。

    3.7K50

    为什么我一行代码就可以完成3个R包的RNA-seq差异分析呢

    在教师节收到学生提问,刷我B站74小时视频的时候看到我演示了RNA-seq差异分析只用了一行代码就完成了3大R包的全部分析,并且输出了对应的图表结果,觉得很神奇,但是B站视频并没有配套讲义和代码还有测试数据...,为什么这么神奇呢?...下面的图表是如何自动出来的呢? ? 因为这个 run_DEG_RNAseq 函数的代码非常长,这里我就不贴在公众号了哈,大家可以在我的GitHub的GEO项目找到它!...这个时候是没有标准答案的,因为每个R包都非常热门,引用量都是好几千,你选择哪个都符合市场规律,不过,我这里有一个代码,对3个结果根据阈值筛选交集。...当然是啊,都会写代码了,还有什么是不能为所欲为的呢? 同样的,代码也是在GitHub,需要你仔细理解,不过我有一个小小的要求,请不要把我的代码雪藏,或者刻意隐瞒。

    1.7K62

    python爬虫笔记之re.match匹配,与search、findall区别

    string为,待匹配的文本或字符串。 网上的定义【 从要匹配的字符串的头部开始,当匹配到string的尾部还没有匹配结束时,返回None;  当匹配过程中出现了无法匹配的字母,返回None。】 ...search()会扫描整个string查找匹配,会扫描整个字符串并返回第一个成功的匹配。 ?  re.findall()将返回一个所匹配的字符串的字符串列表。 ?  ...这里的输出经测试,根本啥也没有,如下图 ? 查了很久,应该是因为re.match一直匹配不到数据引起的,毕竟他只匹配开头。 我将re.match改为re.search,再测试,可正常下载 ?...分析:可能是由于书编写时,http://example.webscraping.com/页面所带的链接都是:/index/1、/index/2……且输入匹配表达式为  【   /(index/view)...我将它换位re.search就可以解决这个问题了。 如有错误,麻烦及时指正,谢谢!

    8.2K30

    「R」R检验中的“数据是恆量”问题

    之前我学习和自己分析时就遇到过,尝试使用判断的方式事先检查它是不是数据存在问题(这类数据明显不服从正态分布),可以使用正态性检验,或者直接判断是不是样本组内的数据是完全一样的,如果一样就不要这个了。...为什么出现这问题?如果解决?以下是我的回答: 数据是恒量是无法做t检验的,因为计算公式分母为0(不懂的看下统计量t的计算公式,一般标准差/标准误为分母,所以恒量是不能算的)。...因为你要用t检验,我给你一个处理思路, 先不分组别,按基因名检查所有样本的基因表达值(循环)是否一样,如果一样就丢掉,如果不一样,则按组别判断样本(每组3个)基因表达是否一样,如果不一样进行t检验寻找一批差异基因...假设有两万个基因的表达,我手头没数据,所以写个伪代码: 下面用geneExpr1与geneExpr2表示两组数据: for循环1(geneExpr1, geneExpr2): 组合某基因表达 - c...) else return(obj$p.value) } 这个函数可以帮助顺利的执行循环,如果出问题,返回相应的NA,这样我们可以算完后再检查数据。

    4.8K10

    阿榜的生信笔记10—R语言综合运用2

    哈喽,我是学习生物信息学的阿榜!非常感谢您能够点击进来查看我的笔记。我致力于通过笔记,将生物信息学知识分享给更多的人。如果有任何纰漏或谬误,欢迎指正。...如果y中没有匹配的行,则将其相应列填充为 NA 。right_join(x, y) : 返回以y为基础的所有行,并将x中的匹配行合并到y中。如果x中没有匹配的行,则将其相应列填充为 NA 。...full_join(x, y) : 返回x和y的并集,并将两个数据集中的匹配行合并到一起。如果有匹配的行,则返回匹配行的交集。如果没有匹配的行,则将其相应列填充为 NA 。...如果需要加载变量,则需要将数据导入到R中,可以使用 read.table() 、 read.csv() 等函数加载数据。"...NA 导致的。

    72100

    R 茶话会(七:高效的处理数据框的列)

    前言 这个笔记的起因是在学习DataExplorer 包的时候,发现: 这我乍一看,牛批啊。这语法还挺长见识的。 转念思考了一下,其实目的也就是将数据框中的指定列转换为因子。...R 数据整理(六:根据分类新增列的种种方法 1.0) 其实按照我的思路,还是惯用的循环了,对数据框的列名判断一下,如果所取的列在数据框中,就修改一下其格式,重新赋值: data(cancer, package...也可以: test2 %>% summarise(across(-where(is.character), mean)) 其中where 类似base 中的which,相当于接受逻辑值,以返回对应位置...~ 其他处理 自定义分组后名称 across 还提供了参数,可以自定义返回的名称: > test2 %>% summarise( + across(-where(is.character), list...陷阱 如果我们先进行了某步运算,比如统计数目,再across 循环某种运算,则有NA 风险: df <- data.frame(x = c(1, 2, 3), y = c(1, 4, 9)) df %

    1.5K20

    学徒讨论-在数据框里面使用每列的平均值替换NA

    最近学徒群在讨论一个需求,就是用数据框的每一列的平均数替换每一列的NA值。但是问题的提出者自己的代码是错的,如下: ? 他认为替换不干净,应该是循环有问题。...希望我们帮忙检查,我通常是懒得看其他人写的代码,所以让群里的小伙伴们有空的都尝试写一下。 答案一:双重for循环 我同样是没有细看这个代码,但是写出双重for循环肯定是没有理解R语言的便利性。...#我好像试着写出来了,上面的这个将每一列的NA替换成每一列的平均值。 #代码如下,请各位老师瞅瞅有没有毛病。...:我是这么想的,也不知道对不对,希望各位老师能指正一下:因为tmp数据框中,NA个数不唯一,我还想获取他们的横坐标的话,输出的结果就为一个list而不是一个数据框了。...)] <- tmp[nrow(tmp),i] } tmp 我的答案 不知道为啥,大家好像一直无法get到R语言编程的便利性!

    3.6K20

    R语言 控制流:for、while、ifelse和自定义函数function

    其中,分支控制是根据条件表达式的结果,执行不同的代码段;循环控制是根据条件重复执行代码块,为了避免无限循环,可以根据条件结束循环。接下来分别从分支控制和循环控制,对R语言中的控制流做简单讲述。...)) [1] 1 1 3 NA 1 2 NA 2 NA NA 注意:返回值的class属性跟test表达式相同,其mode属性是由 yes 或 no表达式确定的。...(即变量名)时,返回参数的值 > t = "r" > switch(t,r='re',g='gr',b='bl',"error") [1] "re" #如果不匹配任何参数名,switch函数不返回任何值...function关键字定义函数,函数主要由函数名称,参数,运行的代码块和返回值组成,函数名称是变量,参数是调用函数时需要传递的形式参数;代码块是由由大括号构成,是调用函数时需要执行的代码逻辑;R的函数不需要显式地使用...return关键字明确返回值,R函数的计算的最后一个值将自动作为返回值。

    5K50

    2021第二期_数据挖掘班_微信群答疑笔记

    线上直播,资料都是电子版的,先做好准备工作,课件在课前发 老师,请问下,在R包安装的时候遇到下面截图的问题,也已经按照提示进行修改,为什么还是会提示cannot open URL啊 ? ?...哪一步产生了空白列名,需要你自己返回去检查,想最快实现目的,就xena下载,想锻炼解决问题的能力,就多试试搜搜 想请问老师们 别的软件出的图是不能导入patchwork拼图的吗 我用png这个包导入图片之后...不行 如何检查数据框中的NA,只能肉眼去看吗? 函数,is.na,加table来检查 我的R是3.6版本的 经常装包出现上面这种情况 用conda装包会简捷一些么?...后面做差异分析的时候还是会用原始矩阵里面的数据来做,这一步限定范围只是为了图形更直观地看出差异 老师,我在批量生存分析的时候有这个报错,我试了第一个基因运行没有错误,运行循环就有这个错误 你的基因需要过滤一下...xy是一一对应的,去掉x的NA还要把y的NA也去掉才行 老师,为什么我这个诺模图矫正曲线画出来是这样呀? ? 老师,我这个循环哪里错了? ?

    1K30

    R语言进阶笔记5 | purrr替代循环

    purrr替代循环 1 purrr循环 引用知乎张敬信的说法: ❝用 R 写 「循环」 从低到高有三种境界:手动 for 循环,apply 函数族,purrr 包泛函式编程。...❞ R写循环有三个境界: 手动for循环 apply循环 purrr泛函式编程 其中,手动for循环我最常用,apply系列半吊子,purrr函数一窍不通,所以要学习一下。...,..4)) 4.3 map不同的后缀 *_chr,比如map_chr, map2_chr, pmap_chr等,返回字符 *_lgl,返回逻辑型向量 *_dbl,返回实数型向量 *_int,返回数字型向量...*_df,返回数据库 *_dfr, 返回数据库行合并 *_dfc, 返回数据框列合并 5 匿名函数写法 一元的map,可以写为 .x,或者..1 二元的map2,可以写为.x,.y,或者..1,..2...1] -0.2338953 $x3 [1] -0.3660053 $x4 [1] 0.02137338 7 map的用法1:批量建模 这里使用我的R包learnasreml中的MET数据,进行测试

    3.4K10

    R语言系列第三期:②R语言多组汇总及图形展示

    在这里我们就得介绍一下R的隐式循环了,之前我们学习过while循环,repeat,break循环,for循环;循环的一个常用功能是把一个函数应用到一组值或者向量中的每一个元素,并将结果返回。...在R中,就可以使用lapply()和sapply()两个函数实现。前一个总是返回列表(用“l”标识),而后者则尽可能将结果简化(用“s”标识)成向量或矩阵。...tapply()函数用来创建表格(用“t”标识),该表由函数关于第二个参数定义的子组上的返回值构成,其中子组参数可以是一个因子或者一列因子。后一种情形生成一个交叉分类表。...01 直方图 之前我们已经使用过hist()函数来得到一个简单的直方图,R可以根据数据选择合适的分割。同时也可以通过breaks来设定区间数量。...我们这里选取R里的关于两组妇女24小时能量消耗的energy数据集,以0.5MJ的倍数作为分割点。

    1.7K00

    温故知新--R基础知识(上)

    列表为统计计算的结果返回提供了一种便利的方法。 · 数据框(data frame)是和矩阵类似的一种结构。在数据框中,列可以是不同的对象。...c()可以有任意多个参数,而它返回的值则是一个把这些参数首尾相连形成的向量。...它是结束repeat 循环的唯一办法。 关键字next:可以用来结束一次特定的循环,然后直接跳入"下一次"循环,类似大家熟悉的continue。...任何含有NA 数据的运算结果都将是NA。 函数is.na(x)返回一个和x同等长度的向量。它的某个元素值为TRUE 当且仅当x中对应元素是NA。...R语言的基本对象有矩阵、因子、列表、数据框和函数,assign()都可以赋值,c()可以有任意多个参数,而它返回的值则是一个把这些参数首尾相连形成的向量,paste()可以把单独的字符连成字符串,可以有任意多的参数

    1.2K30

    我承认tidyverse已经脱离了R语言的范畴

    最近知乎热议:R和Python谁更优雅的问题,或者谁更适合数据分析的问题,各种讨论,非常值得一看: https://www.zhihu.com/question/527922200 别点了,微信不支持超链接...就我个人而言,Python更适合写流程,平时建模都是用R语言处理好数据,交予第三方软件,最后用Python串起来。不得不说,R语言的tidyverse是真的好,非常高效。...从某种角度,只学R语言没有接触过tidyverse的用户,看到R的代码,觉得它已经脱离了R语言的范畴!!!...最近在学习tidyverse,批量方差分析之前都是用for循环,然后用formula处理模型,再把结果保存为list的形式,现在学习了tidyverse的操作,可以用pivot_longer将所有性状进行长数据转化...当然看最新的电子书,纸质版的都out了:R语言学习看最新版的电子书不香嘛? ---- 大家好,我是邓飞,一个持续分享的农业数据分析师

    66120

    DESeq2差异分析及VST变换的探索

    对于TCGA的差异分析,很多初学者很纠结,不知道到底是用counts/tpm/fpkm,到底是用哪个包,我这里给出我的建议,对于TCGA的差异分析,就用counts,DEseq2进行差异分析!...-6605-01A-11R-1839-07 tumor ## 5 TCGA-AZ-6605-11A-01R-1839-07 normal ## 6 TCGA-F4-6569-01A-11R-1774-...# 我这里没做这一步,写出来给大家做个参考 keep = 10) >= 3 table(keep) dds1 <- dds1[keep,] 真正的差异分析就...,经过vst转换后的表达矩阵表达量还是很好的: boxplot(vsd[,1:30]) 看看这个表达量,很棒,这也是为什么vst标准化后的数据可以直接进行后续分析(不需要log)的原因。...PCA然后画图: R语言主成分分析 R语言主成分分析可视化(颜值高,很详细) R语言PCA可视化3D版 使用R语言美化PCA图 参考资料 DEseq2官方文档 ---- 新版TCGA系列推文 1.新版TCGA

    3.3K10

    用编程赋能工作系列——高德地图开发

    求隔壁的开发小哥哥又远水解不了近渴(开发小哥哥又不是你家的)。 还好我早有准备,偷偷学习了Python和R,处理经纬度这点儿小事儿怎能难住我,自己动手丰衣足食,说不定哪天你就抢了隔壁开发的饭碗。...这些api是通用接口,大多数语言都具备调用能力,其中可提供的返回信息非常多,你可以参考开发api开发文档说明酌情考虑接收你需要的数据。...以下我只提供了精简版的代码,如果你需要更丰富的数据,可以适当修改代码即可。 一、R语言实现方案 1)地址转换经纬度 ## !...2)拿到返回值之后就可以在各平台进行结构化处理,一般都会选择json进行返回,因为这种格式比较主流,各平台处理工具也比较多,比如R语言中的jsonlite、python中则因为字典天然与json格式高度兼容...这里最重要的是,你要判断哪些是错误,哪些可以合法通过请求,但是却不一定能拿到想要的数据,这时需要想办法进行替补或跳出循环(即直接忽略)。

    1.3K10
    领券