首页
学习
活动
专区
工具
TVP
发布

大数据文摘

专栏作者
5572
文章
4008178
阅读量
253
订阅数
Judea Pearl 怼 Michael Jordan:不是所有随机对照实验都叫「反事实」
大数据文摘授权转载自AI科技评论 作者 | 李梅 编辑 | 陈彩娴 2011 年图灵奖得主、因果科学之父 Judea Pearl 曾提出著名的“因果阶梯”论(Pearl Causal Hierarchy,PCH)。 他认为,因果推断有三个层级,最低的第一层级是相关(association),涉及的是预测,而不涉及因果关系,只讨论变量之间的关联,比如公鸡打鸣与日出之间的相关关系。 第二层级是干预(intervention),涉及因果性,比如吸烟与患肺癌之间的因果关系。 第三层级是反事实(Counterfact
大数据文摘
2022-09-02
2340
Michael Jordan:人工智能研究的目标变了,不再是构建单个智能
【专栏:研究思路】我们认为,人工智能进入了新的拐点。在一个后深度学习时代,不同的学者对未来智能发展道路的理解逐渐清晰,当然也逐渐开始分化,由此导致了开展布局完全不同的研究工作。智源社区将系统分析全球范围内知名学者对未来研究布局的「研究思路」,以帮助大家思考人工智能的未来。
大数据文摘
2021-04-29
3680
R语言有多强大?十个你不知道的功能
R语言的确提供了很全面的统计分析的软件包,比如CRAN,Bioconductor,Neuroconductor,以及ROpenSci;并且提供了优秀的包管理功能。
大数据文摘
2019-04-26
9990
想用R和Python做文本挖掘又不知如何下手?方法来了!
📷 大数据文摘作品,转载要求见文末 作者 | Karlijn Willems 编译团队 | 饶蓁蓁,Mirra,apple黄卓君 文本挖掘应用领域无比广泛,可以与电影台本、歌词、聊天记录等产生奇妙的化学反应,电影对白、歌词和聊天记录等文本中往往藏着各种有趣的故事。想要开始文本挖掘,但是使用的教程过于复杂 ?找不到一个合适的数据集?大数据文摘的这篇文章将会引导你学习8个技巧和诀窍,希望能够激励你开始文本挖掘的进程并且保持兴趣。 1、对文章产生好奇 在数据科学中,几乎做所有事情的
大数据文摘
2018-05-25
1K0
麻省理工三位教授教你一步步创建自己的R程序包(附完整教程下载)
大数据文摘作品,转载要求见文末 原作者 | PakinJa 编译 | 笪洁琼,张天健,Aileen R语言是很多数据科学家和科研人员会用到的语言,根据自己的需要开发独立的R程序包可以使自己的工作更快捷方便,也便于与他人分享。本文摘自由三位MIT 麻省理工学院教授联合编写的教程“"Instructions for Creating Your Own R Package"”。 我们将按步骤指导并创建属于你的R安装包。 大数据文摘后台回复“R”下载英文完整PDF版教程。 教程全文包含三组不同的说明。本文涉及使用
大数据文摘
2018-05-25
1.7K0
脑洞 | 哈佛教授公开R语言源码,教你用R制作gif动图
本文授权转自数据派(datapi) 原文标题:Code for my educational gifs 作者:Rafael Irizarry 翻译:贾琳 编辑:黄继彦 Rafael Irizarry是哈佛大学以及the Dana-Farber Cancer Institute的应用统计教授,他专注于研究基因组学,并且教授数门数据科学课程。在本文中他公开了自己授课时所使用的gif动图的R语言源码,同时也对涉及的几个话题进行了简单的论述,对于希望了解数据科学原理、如何使用R语言来进行可视化的读者都有所
大数据文摘
2018-05-24
1.2K0
感同身受!12个数据科学家秒懂的瞬间
大数据文摘作品,转载要求见文末 作者 | Ramesh Ilangovan 编译 | 白丁、大饼、宁云州 所谓数据科学家就是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。 --Josh Wills, Cloudera云纪元 毫无疑问,数据科学是如今职场上最受追捧的技能之一。CNBC的一篇文章在综合考虑就业机会、薪水中位数、体力工作强度、工作压力等因素后,将“数据科学家”评选为2017年最受欢迎的10大职业之一。数据科学在职场中确实越来越热,数据科学家年薪的中位数超过了11万美元而且职场中对于数据
大数据文摘
2018-05-24
4520
谷歌R语言格式指南
选文|Aileen 翻译|徐宇文,周冲 校对|姚佳灵 R语言是一种主要应用于统计计算和可视化的高级编程语言。发布这份R语言编程格式指南的主要目的是让我们的R代码更容易阅读、分享和验证。以下这份规范是谷歌的整个R用户社区协作设计的。 ◆ ◆ ◆ 总结:R格式规范 1. 文件名:以.R结束 2. 标识符:variable.name (或 variableName), FunctionName, kConstantName 3. 单行长度限制:至多80个字符 4. 缩进:两个空格,不要使用“ta
大数据文摘
2018-05-24
8280
IDG2016TMT战略:大量资本将投向人工智能、消费升级、泛娱乐
在IDG资本近日在杭州举办的2016「IDG VIEW」大会上,熊晓鸽发布了IDG2016年投资三大战略方向:人工智能、消费升级、泛娱乐投资。   (「IDGVIEW」现场,Rokid机器人作开场主持
大数据文摘
2018-05-24
5520
一名数据科学家的新年计划
转自|灯塔大数据 微信|DTbigdata 新的一年不仅仅意味着换一本新台历或者揉着眼睛在下一个清晨醒来。新的一年应该拥有一个新开端的喜悦,它赋予我们充分的理由去养成新习惯,也标志着新“希望”的到来。 如果你看到这篇文章的题目开始阅读本文,那么一定是数据科学激起了你的兴趣。你肯定希望2016年成为你的转运年,对不对?如果你从今天起坚持去执行这些新年计划,转运的可能性就会更大。要知道,成为一名数据科学家不能一蹴而就,需要的是一个过程。因此,朝目标迈进的过程中一定要充满耐心。 根据发展阶段的不同,我在此给大
大数据文摘
2018-05-23
3650
【致敬】历史上最伟大的12位程序员
点击标题下「大数据文摘」可快捷关注 所谓程序员,是指那些能够创造、编写计算机程序的人。不论一个人是什么样的程序员,或多或少,他都在为我们这个社会贡献着什么东西。然而,有些程序员的贡献却超过了一个普通人
大数据文摘
2018-05-22
2K0
手把手: 如何用R作Polar图等
感谢顾运筠投稿,欢迎各位读者投稿,发送邮件到tg@bigdatadigest.cn 或后台留言即可,谢绝软广。 用R作如下的各国Gini系数的Polar barChart: 作上图的R代码为: lib
大数据文摘
2018-05-22
6640
Python和R代码机器学习算法速查对比表
翻译:丁雪 校对:王方思 在拿破仑·希尔(Napolean Hill)所著的《思考致富》(Think and Grow Rich)一书中,他为我们引述了Darby苦挖金矿多年后,就在离矿脉一步之遥的时候与宝藏失之交臂的故事。 思考致富中文版的豆瓣阅读链接: http://read.douban.com/reader/ebook/10954762/ 根据该书内容进行的修改 如今,我虽然不知道这故事是真是假,但是我明确知道在我身边有不少这样的“数据Darby”。这些人了解机器学习的目的和执行,对待任何研究问题只
大数据文摘
2018-05-22
6170
手把手 | 用R分析宋词三百首 自己动手写个“机器诗人”
授权转自知乎,作者李佳飞 最近中国诗词大会很受欢迎,才女武亦姝凭借超强的记忆力和超快的反应能力一炮走红,成为大家心目中的偶像。 在欣赏节目的同时,我也不禁想到,既然古代的诗人能够创作出这些美好的诗篇,那我是不是也能创作几首属于自己的诗词作品呢?可惜,经过一番尝试,我发现自身的文学功底不够,恐怕无法完成这样艰巨的任务。看来人和人还是有很大的差距。 当然,我并没有气馁。就像著名的无限猴子定理阐述的那样,哪怕是让一只猴子在打字机上随机地按键,只要按键的时间足够长,那么几乎必然能够打出任何特定的文字,甚至是莎士比
大数据文摘
2018-05-22
8950
如何用R语言进行云计算
作者 | Ajay Ohri 翻译 | 丁雪 校对 | ValaWong 如今,几乎所有领域或业务活动正在通过SMAC进行数据转换。SMAC指的是社交(Socia)、移动(Mobile)、分析(Analytics)和云服务(Cloud)。这个改变的影响已经涉及到包括组织、人员与产品在内的范围。在本文中,我们将通过使用云计算让你提高数据分析能力。 我们已经使用R语言和RStudio由浅入深地解释了云计算的相关概念(请参考大数据文章2015年9月21日发布的文章《如何在云计算平台使用R语言编程的快速入门指南
大数据文摘
2018-05-22
3.7K0
将Python和R整合进一个数据分析流程
编译:丁一 黄念 丁雪 校对:席雄芬 姚佳灵 程序验证:郭姝妤 序言 在Python中调用R或在R中调用Python,为什么是“和”而不是“或”? 在互联网中,关于“R Python”的文章,排名前十的搜索结果中只有2篇讨论了一起使用R和Python的优点,而不是把这两种语言对立起来看。这是可以理解的:这两种语言从一开始都具有非常显著的优缺点。从历史上看,尽管把两者分割开来是因为教育背景:统计学家们倾向用R,而程序员则选择了Python语言。然而,随着数据科学家的增加,这种区别开始变得模糊
大数据文摘
2018-05-22
2.4K0
R: 学习Gradient Boosting算法,提高预测模型准确率
作者:TAVISH SRIVASTAVA 翻译:席雄芬 校对:丁一 引言 预测模型的准确率可以用2种方法来提高:要么进行特征设计,要么直接使用boosting算法。参加过许多数据科学大赛后,我发现许多人喜欢用boosting算法,因为它只需更少的时间就能产生相似的结果。 目前有许多boosting算法,如Gradient Boosting、 XGBoost,、AdaBoost和Gentle Boost等等。每个算法都有自己基本的数学原理并且在使用它们时都会发现有一些细微的变化。如果你刚接触boostin
大数据文摘
2018-05-22
1K0
一行R代码实现繁琐的可视化
作者:唐源 摘自:统计之都(微信ID CapStat) 唐源,目前就职于芝加哥一家创业公司,曾参与和创作过多个被广泛使用的 R 和 Python 开源项目,是 ggfortify,lfda,metric-learn 等包的作者,也是 xgboost,caret,pandas 等包的贡献者。(喜欢爬山和烧烤 ) ggfortify 是一个简单易用的R软件包,它可以仅仅使用一行代码来对许多受欢迎的R软件包结果进行二维可视化,这让统计学家以及数据科学家省去了许多繁琐和重复的过程,不用对结果进行任何处理就能以 g
大数据文摘
2018-05-22
9770
手把手 | 教你爬下100部电影数据:R语言网页爬取入门指南
大数据文摘作品,转载要求见文末 编译 | 姚佳灵,蒋晔,杨捷 前言 网页上的数据和信息正在呈指数级增长。如今我们都使用谷歌作为知识的首要来源——无论是寻找对某地的评论还是了解新的术语。所有这些信息都已经可以从网上轻而易举地获得。 网络中可用数据的增多为数据科学家开辟了可能性的新天地。我非常相信网页爬取是任何一个数据科学家的必备技能。在如今的世界里,我们所需的数据都在互联网上,使用它们唯一受限的是我们对数据的获取能力。有了本文的帮助,您定会克服这个困难。 网上大多数的可用数据并不容易获取。它们以非结构化的形
大数据文摘
2018-05-21
1.5K0
用R语言进行数据可视化的综合指南(二)
编译|崔浩 校对|姚佳灵 高级可视化效果 什么是Hexbin Binning? 如果在同一个地方有很多点(overplotting),我们可以使用Hexbin包。六边形面元划分是一种二元直方图,对大数量级结构的数据集的可视化非常有用。下面是代码: >library(hexbin) >a=hexbin(diamonds$price,diamonds$carat,xbins=40) >library(RColorBrewer) >plot(a) 我们也可以创建一个调色板,然后用Hexbin绘图功能以获得更
大数据文摘
2018-05-21
1.8K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档