首页
学习
活动
专区
工具
TVP
发布

大数据文摘

专栏成员
5574
文章
4220023
阅读量
255
订阅数
AI 与合成生物学「联姻」的五大挑战:技术、数据、算法、评估与社会学
大数据文摘转载自AI科技评论 来源:ACM通讯 编译:王玥 编辑:陈彩娴 在过去的二十年里,生物学发生了翻天覆地的变化,建立在生物系统上的工程成为了可能。赋予了我们细胞遗传密码(DNA)排序能力的基因组革命是这一巨大变化的主要推手。而基因组革命带来的最新发现之一,正是使用CRISPR在体内精确编辑DNA的能力。 遗传密码的高级表现,如蛋白质的合成,被称为「表型」(phenotype)。高通量表型数据与DNA的精确编辑结合到一起,将底层代码的变化与外部表型联系了起来。 图注:Wacomka 图注:本图体现
大数据文摘
2022-05-16
3680
中国首次!清华刘奕群团队获得WSDM 2022唯一最佳论文奖,港中文获得「时间检验奖」
大数据文摘授权转载自AI科技评论 作者 | 西西 编辑 | 陈彩娴 2月21日至25日,第15届国际互联网搜索与数据挖掘大会(WSDM 2022)在线上召开,来自清华大学计算机系的研究团队获得了大会唯一的最佳论文奖! 这也是自大会创办以来,由来自中国的科研团队首次获得该奖项。 WSDM(读音为「Wisdom」)由国际计算机学会(ACM)旗下的信息检索(SIGIR)、数据挖掘(SIGKDD)、数据库(SIGMOD)与网络信息处理(SIGWEB)等四个专委会共同举办,在数据挖掘领域享受崇高的学术声誉。 此外,除
大数据文摘
2022-03-04
2240
数据科学入门前需要知道的10件事
对于未知的学科,琳琅满目的学习资源,美好的工作机会,应该怎样去努力?本文作者是研究数据挖掘和生物医学方向,目前就职于泰国的一所研究大学的全职生物信息学副教授。他在22岁时开始自学数据科学,目前已经自学成才,文摘菌编译了这篇文章,希望能把以下需要注意的10件事告诉刚入门的你。
大数据文摘
2020-06-17
8620
争分夺秒!制药公司如何用大数据加快药物试验进程?
最近,武汉新型冠状病毒正在肆虐,受感染人数迅速上升,同时,疫苗的研发也在紧张地进行,尽管很可能无法赶上病毒的早期扩散,但全球科研机构和制药公司正在努力,以“破纪录”的速度进行相关疫苗研发和抗病毒药物试验,并对其寄予厚望。
大数据文摘
2020-02-21
4720
判菜系、调众囗、打分数,这一回,我们用大数据烧菜?
年前,文摘菌曾经扒下了全网所有“年夜饭”菜谱,找到了最有年味的一道菜的一文,对于菜谱数据分析产生了浓厚的兴趣,遂自己也写了个爬虫爬取了某美食网站的一些精选菜谱和食材信息。
大数据文摘
2019-03-18
6560
数据工程师进阶计划,这有一份2019开年自学清单
优质大型的公司对于数据分析以及机器学习类岗位的需求高居前列。本文给出了针对小白和有简单数据科学基础的同学的学习计划,可以让你在浩如烟海的数据科学学习资料中找到自己的兴趣。
大数据文摘
2019-03-04
5450
中科院陈润生院士: 精准医疗数据处理中的挑战
陈润生:尊敬的各位专家,各位朋友,非常荣幸,能够应邀参加这个大会,我今天主要谈一谈关于大数据和精准医学的情况,希望大家批评指正。 ◆ ◆ ◆ 什么是精准医学 我首先谈一下什么是精准医学,核心就是一句话
大数据文摘
2018-05-25
6080
秒懂词向量Word2vec的本质
授权转自公众号 数据挖掘机养成记 作者 | 穆文 本文只授权『大数据文摘』独家转载,禁止其他一切未经作者许可的转载形式 大家好 我叫数据挖掘机 皇家布鲁斯特大学肄业 我喝最烈的果粒橙,钻最深的牛角尖 ——执着如我 今天我要揭开Word2vec的神秘面纱 直窥其本质 相信我,这绝对是你看到的 最浅白易懂的 Word2vec 中文总结 (蛤?你问我为啥有这个底气? 且看下面,我的踩坑血泪史。。。) 1. Word2vec参考资料总结 (以下都是我踩过的坑,建议先跳过本节,阅读正文部分,读完全文回头再来看) 先大
大数据文摘
2018-05-25
1.5K0
企业数驱文化探索:别止步于一群受过专门培训的分析师
导语: 大数据时代,手握海量数据已是企业常态,而企业数据驱动文化不能止步于一群经过专门培训的分析师。如何充分利用数据并对其加以挖掘和利用才是赢在未来的王道。而企业在探索数据驱动的路上,找到相关人才至关重要。这篇文章总结了如何才能最高效率发掘数据驱动型潜力人才,通过人工智能、机器学习以及数据挖掘,帮助企业通过数据获得真正回报的最佳实践。 设定目标对数据驱动型企业至关重要。 招聘拥有分析思维的员工和招聘拥有特定技能的员工一样重要。 不必花费太多费用,但持续的培训却是必须。 和许多公司一样,能源巨头雪铁龙公司也
大数据文摘
2018-05-25
4050
对话东航数据实验室王学武:打造爆款速胜产品,为数据找到立足之地
大数据文摘作品,转载要求见文末 大数据文摘记者 | 魏子敏 *本文为清华数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容。 “数据实验室不是科研组织,我们要的是成果落地。” 中国东方航空数据实验室负责人王学武非常明确数据的价值所在,“科研成果变为劳动生产力需要有很长的路要走。而我们要的就是分析成果的落地,要的就是全面铺开,释放数据的潜能,通过数字化推动业务的提升。” 隶属东方航空客运营销委员会和东航信息部,东航数据实验室经过一年筹备,于2017年初正式成立。 变现大数据资产的价值,
大数据文摘
2018-05-25
7580
干货 | KDD2017现场:中国论坛直击(讲座完整PPT)
大数据文摘作品,转载要求见文末 作者 | Aileen、钱天培、加号 8 月 13 日至 8 月 17 日,每年一度的数据挖掘领域的顶级会议 ACM SIGKDD 2017 在加拿大的 Halifax 召开。 8月15日下午,SIGKDD中国分会组织了本次会议中的分支活动Data Science of China。这是SIGKDD继2016年后第二次举办中国专场。也是现场除了印度专场之外,另外一家完全为了一个国家举办的专场会议。 大数据文摘前方记者为你带回了三场讲座的文字报道,同时附上新鲜出炉的PPT全文。
大数据文摘
2018-05-24
5010
识辨 | 什么是分类?什么是聚类?
本文转自人机与认知实验室 【人工智能某种意义上是辨识区别精度的弥聚过程,因而自然少不了分类与聚类方法】 分类是指按照种类、等级或性质分别归类。 聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类
大数据文摘
2018-05-24
2.2K0
院士梅宏:真正的大数据应用体现在数据挖掘的深度
北京理工大学副校长,中国科学院院士梅宏在会上做了《大数据与数据驱动的智慧》的演讲,探索了大数据带来的挑战和可能的应用。梅宏认为,目前来讲,大数据还在炒作的阶段,真正的大数据应用应该体现在数据挖掘的深度
大数据文摘
2018-05-24
4370
快问快答 | 助教带你学习数据科学(附答疑视频领取)
Q: 可以推荐一本完全零基础的python书看一下吗?我没有数据基础。 A: 《简明Python教程》 Q:在校生,想搞明白未来的职业发展。 A:我看数据科学相关的岗位有,比如:数据分析,数据挖掘,机器学习,自然语言处理,计算机视觉,深度学习工程师等等,还有推荐算法、搜索算法。 我觉得咱们的培养目标和数据挖掘、机器学习这两个岗位的要求更贴近。当然,像数据分析、自然语言处理、计算机视觉、深度学习,推荐算法等等这些岗位,就是更专业一点,或者说更垂直一点。 我一直觉得机器学习目前还不是一种通用技术,可能很长一段时
大数据文摘
2018-05-24
5440
Kaggle大神带你上榜单Top2%:点击预测大赛纪实(上)
大数据文摘作品 作者:Gabriel Moreira 编译:朝夕、Katherine Hou、党晓芊、Niki、元元、钱天培 作为全世界最知名的数据挖掘、机器学习竞赛平台,Kaggle早已成为数据玩家在学习了基础机器学习之后一试身手的练兵场。 那么,参加Kaggle比赛到底是怎样一种体验呢?Kaggle比赛的爱好者们不计其数,很显然这些比赛不会是简单枯燥的模型调参。 更进一步地问,Kaggle比赛的优胜者们又是如何取得优异的成绩的呢?优质的算法对大多数Kaggle竞赛来说显然不是制胜法宝——SVM、随机森林
大数据文摘
2018-05-24
1.2K0
Kaggle大神带你上榜单Top2%:点击预测大赛纪实(下)
作者:Gabriel Moreira 编译:修竹、柳青秀、王梦泽、钱天培 在上周,文摘菌为大家介绍了资深数据科学家Gabriel参加Kaggle的Outbrain点击预测比赛的前半程经历(戳链接阅读 Kaggle大神带你上榜单Top2%:点击预测大赛纪实(上))。 这周,我们将继续听大神唠嗑,看他又在比赛冲刺阶段用到了哪些数据科学领域的知识技能。 作为全世界最知名的数据挖掘、机器学习竞赛平台,Kaggle早已成为数据玩家在学习了基础机器学习之后一试身手的练兵场。 在该系列的上半部分中,我介绍了Outbra
大数据文摘
2018-05-24
3820
重磅 | 数据挖掘之父韩家炜:文本语料库的数据挖掘(附视频+PPT下载)
授权转载自公众号数据派THU 微信ID:DatapiTHU 近期,美国伊利诺伊大学厄巴纳香槟分校计算机科学Abel Bliss教授韩家炜在清华大学FIT楼多功能厅进行了关于文本语料库数据挖掘的主题分享。 嘉宾简介:韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文900余篇。 以下为演讲现场视频: 全文演讲PPT如下: 回
大数据文摘
2018-05-24
5600
分析1300万起案件 洛杉矶警局如何用算法预测犯罪
编者按:洛杉矶警局与加州大学洛杉矶分校合作,采集分析了80年来1300万起犯罪案件,用于进行犯罪行为的大型研究,通过算法预测成功将相关区域的犯罪率降低了36个百分点。 可见,算法不仅仅可以帮助运营人从用户数据挖掘中获得灵感,同样,如果不是简单地分析以往的犯罪规律,而是采用预测式警务的做法,分析人员就可以利用之前犯罪行为表现出来的规律,全神贯注地分析下一个可能发生犯罪行为的地点并重点干预。 ◆ ◆ ◆ 10年前,在梳理2.45亿顾客每周生成的海量数据时,沃尔玛公司的数据挖掘算法偶然发现了一条奇怪的信息:在发布
大数据文摘
2018-05-24
2.1K0
小白学数据:教你用Python实现简单监督学习算法
编译:文明、笪洁琼、天培 今天,文摘菌想谈谈监督学习。 监督学习作为运用最广泛的机器学习方法,一直以来都是从数据挖掘信息的重要手段。即便是在无监督学习兴起的近日,监督学习也依旧是入门机器学习的钥匙。 这篇监督学习教程适用于刚入门机器学习的小白。 当然了,如果你已经熟练掌握监督学习,也不妨快速浏览这篇教程,检验一下自己的理解程度~ 什么是监督学习? 在监督学习中,我们首先导入包含有训练属性和目标属性的数据集。监督学习算法会从数据集中学习得出训练样本和其目标变量之间的关系,然后将学习到的关系对新样本(未被标
大数据文摘
2018-05-24
6000
社交数据在征信领域的应用探索
作者:刘黎春 编辑:王雪燕 摘自:51CTO 由51CTO举办的WOT”互联网+”时代大数据技术峰会上,来自腾讯数据挖掘高级工程师刘黎春做了以《社交数据在征信领域的应用探索》为主题的演讲,主要内容由社
大数据文摘
2018-05-24
1.1K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档