首页
学习
活动
专区
工具
TVP
发布

大数据文摘

专栏作者
5572
文章
4005773
阅读量
253
订阅数
一文了解云原生大数据
大数据文摘出品 作者:迟慧 随着行业的快速发展和业务的高速迭代,数据量也呈爆炸式增长,大数据云原生化逐渐成为企业数字化转型的重要演进方向。数字化驱动企业提升运营效率,洞察商业机会;云原生化提升 IT 系统效率,促进业务敏捷,大数据云原生化是为企业创新提供无限可能。 大势所趋:云原生大数据 传统的大数据架构在资源利用、高效运维、可观测性等方面存在诸多不足,已经越来越无法适应当下的发展需求。具体来讲,传统大数据架构主要存在以下几方面的问题: 传统大数据组件繁多,安装运维复杂,在生产使用中需要大量的人力支持; 在
大数据文摘
2023-02-23
7740
如何用存储黑科技解决推荐系统的“信息过载”?
这些数字来自某移动互联网企业在一次技术交流活动上对自家数据处理能力的介绍。先不说EB,就说说1PB是什么概念吧?大约是2亿张照片或2亿首MP3音乐,如果一个人不停地听这些音乐,能听上1900年。
大数据文摘
2021-07-06
4850
还在为自学数据科学发愁吗?化学工程毕业生教你如何转行
作为一名最近毕业于化学工程专业的学生,我第一份工作是在一家科技公司担任数据分析师。我曾在这里记录了从化学工程到数据科学的转变。从那时起,每当我与学校的学生谈论这一举动时,许多人表达了相同的兴趣和疑问……
大数据文摘
2020-11-24
6430
遍览200多个机器学习工具后,我学到了啥
因为机器学习研究的放缓,以及大家对产业化的需求。近来大家对MLOps的关注越来越高,特别是其中涉及到的各种各样的工具。
大数据文摘
2020-07-09
3630
六十年前的上古编程语言教程登上GitHub榜首,退休老程序员如何焕发第二春?
GitHub的趋势榜单中,都会标记项目所属语言。习惯了榜首被C、java、Python霸屏的文摘菌,今天突然看到了一个不认识的语言教程霸占榜首,一天内星标超过了200!
大数据文摘
2020-04-21
5410
在小公司如何做一名成功的数据科学家?
本文作者Randy Au,已经在15-150人规模的公司工作了近12年,被冠于“数据分析师、工程师、偶尔还有科学家”的各种头衔。
大数据文摘
2019-03-04
4230
用一条数学公式破解人类记忆 | MIT媒体实验室Nature新作
MIT媒体实验室一直是一家将社会人文学科与自然科学巧妙融合的代表机构。每年,这些脑洞大开的科学家们都会发布一些非常震撼的研究。
大数据文摘
2018-12-27
6810
手把手 | 如何用Python做自动化特征工程
机器学习的模型训练越来越自动化,但特征工程还是一个漫长的手动过程,依赖于专业的领域知识,直觉和数据处理。而特征选取恰恰是机器学习重要的先期步骤,虽然不如模型训练那样能产生直接可用的结果。本文作者将使用Python的featuretools库进行自动化特征工程的示例。
大数据文摘
2018-09-20
4.3K0
史上最严数据保护条例欧盟GDPR今日生效,你可能需要这版中文全文(上)
大数据文摘授权转载自腾讯研究院 翻译:丁晓东 经过欧盟议会长达四年的讨论,欧盟《一般数据保护条例》(General Data Protection Regulation,简称GDPR)终于 在2018年5月25日也就是今天生效。 在一些媒体的报道中,这一保护条例被称为“史上最严数据保护条例”。尽管这是现代社会保护个人数据与安全迈出的重要一步,但在国内外的许多媒体报道中,GDPR中的一些条款被误读或是错误理解引起了一些用户、公司、学者的恐慌。 在GDPR即将正式实施之际,严谨的阅读并理解GDPR的原文显得尤为
大数据文摘
2018-06-29
1.3K0
中科院陈润生院士: 精准医疗数据处理中的挑战
陈润生:尊敬的各位专家,各位朋友,非常荣幸,能够应邀参加这个大会,我今天主要谈一谈关于大数据和精准医学的情况,希望大家批评指正。 ◆ ◆ ◆ 什么是精准医学 我首先谈一下什么是精准医学,核心就是一句话
大数据文摘
2018-05-25
5830
IBM用机器学习探寻外星文明讯号 你也可以参与其中
作者 | 毛丽 魏子敏 星际探索中,一切成就变得格外伟大而浪漫。在无数太空任务中,一类任务特别激动人心——寻找外星生命。 封面图来自NASA 天文学家搜寻外星人的每一点进展都让全人类沸腾。而除了天文学
大数据文摘
2018-05-25
5680
数据主义:如果把全人类及其进化史看作一个数据处理系统……
从数据主义观点,可以把全人类看作一个数据处理系统,而每个个人都是里面的一个芯片。 这样一来,整部历史的进程就是要透过四种方式,提高系统效率: 1、增加处理器数量。拥有10万人口的城市,运算能力就会高于拥有1,000人口的村庄。 2、增加处理器种类。处理器不同,运算和分析数据的方式就不同。因此,如果系统拥有不同的处理器,就能增加其动力与创意。农民、祭司和医师对话所产出的想法,可能是狩猎采集者之间怎么谈都谈不到的。 3、增加处理器之间的连结。如果光是增加处理器数量,但彼此之间无法连结,仍然没有意义。十个有贸易
大数据文摘
2018-05-25
7480
制药商的银河漫游指南:如何用机器学习帮化学家搜索更好的药物
Illustration by Vasava 大数据文摘作品 作者:Asher Mullard 编译:余志文、小鱼、姜范波 如何使用机器学习和大数据帮助化学家在浩瀚的化学宇宙里搜索更好的药物 2016年,Sunovion制药公司给经验丰富的员工们布置了一个不寻常的任务。在马萨诸塞州马尔堡的公司总部,化学家们被要求以玩游戏的方式看看谁可以发现新的药物。在他们的工作站有数百个化学结构的网格,其中只有十个标有生物效应信息。专家使用他们多年积累的化学结构和生物学知识不断筛选可能成为候选药物的分子。参加比赛的11
大数据文摘
2018-05-24
5310
NASA加速应用机器学习探测太空,英特尔携Nervana参与其中
封面图来自NASA 星际探索中,一切成就变得格外伟大而浪漫。 天文学家搜寻外太空的每一点进展都让全人类沸腾。而除了天文学知识和仪器的进展,鉴于天文研究涉及的数据量级异常巨大,数据处理的精进、机器学习、云计算等在数据科学领域的新成就也会为这项事业带来新的意义。 目前NASA已经启动了若干个计划,用来搜索在宇宙中的其他地方存在着生命的证据。这些计划总称为“SETI(the Search for Extra-Terrestrial Intelligence)”。SETI致力于用射电望远镜等先进设备接收从宇宙中传
大数据文摘
2018-05-24
4110
案例 | 利用数据分析找准定位,老牌涂料巨头立邦漆的“逆生长”
作为老牌涂料品牌,立邦漆近期的转型简直可以称得上“逆生长”:从耳熟能详的广告语“为你刷新生活”,到年轻化iColor官网的上线,实现了一场华丽转身。从产品开发、制造,到直面客户的销售环节,立邦涂料,这一拥有近120年历史的涂料公司,拥抱信息技术,将大数据分析融合到产品开发、制造和销售等各个环节中,全方位多角度的让数据分析发挥功效。 利用数据分析深度了解消费者偏好,找准市场定位 立邦的家装设计网站iColor官网不仅能够像普通家装网站一样提供家装问题的解答,让消费者获取大众生活中具有普遍认同感的大众时尚装修理
大数据文摘
2018-05-24
6900
南埃文代尔小学的实践:增大数据获取难度竟然提高了数据利用率
几十年来,南埃文代尔小学附近的社区一直处于贫困状态,市公立学校组织为南埃文代尔小学的每位学生建立个人网页,使用先进的软件来追踪学生的表现。然而,建立在线数据库6年后,南埃文代尔小学却没有什么改变。为了提高数据使用效率,南埃文代尔小学尝试增大数据获取难度。 学校的转变 几十年来,南埃文代尔小学附近的社区一直处于贫困状态。20世纪60 年代,发生过种族骚乱。20 世纪70 年代,工厂陆续倒闭,失业率猛增。校方发现,南埃文代尔小学的学生大都营养不良,身上还有受到虐待的痕迹。20 世纪80 年代,学校周围毒品交易猖
大数据文摘
2018-05-24
3510
超越批处理的世界:流计算
今日,流式数据处理是大数据里的很重要一环。原因有不少,其中包括: 商业(竞争)极度渴望更快的数据,而转换成流计算则是一个好的方法来降低延迟。 海量的、无穷数据集在现在的商业环境里变的越来越常见,而用专门设计来处理这样数据的系统来应对这些数据则更为容易。 在数据到达时就对他们进行处理能够更加平均地把负载进行均衡,取得更好的一致性和更可预测的计算资源消耗。 尽管业务驱动带来了对流计算兴趣的猛增,但绝大部分现有的流计算系统相比于批处理还不够成熟,而后者已经产生了很多令人激动的、多产的应用。 作为从事海量大规模流计
大数据文摘
2018-05-24
9390
LinkedIn前数据专家解读日志与实时流处理
编者注:本内容来自Jay Kreps所著的《我喜爱日志:事件数据、流计算处理和数据集成》一书的第三章。Jay Kreps是Confluent的联合创始人和CEO。在此之前,Jay是领英的主要架构师之一,专注于数据基础架构和数据驱动的产品。他是多个可扩展的数据系统空间的开源项目的作者之一,包括Voldemort、Azkaban、Kafka和Samza。 以下是原文: 到目前为止,我还仅仅只是描述了一些把数据从一个地方拷贝到其他地方的多种的方法。然而,在存储系统间挪动字节并不是故事的结尾。实际上我们发现,“日
大数据文摘
2018-05-24
6560
大咖丨交通运输部科学研究院:交通运输大数据的基础环境正日益成熟-清数•思享会
“交通行业是一个基础性产业,我们面对的是点多、线长、面广的现状。”交通运输部科学研究院交通信息中心副主任黄莉莉用这样一句话概括了交通行业特点。 交通运输部科学研究院信息中心肩负着交通行业统计数据生产和交通运输部综合交通运输大数据应用中心的工作任务,多年来专门从事交通运输相关数据的采集、处理、分析应用等工作。这样一个部门,面对管理上条块结合的交通运输行业,如何才能协调各业务领域,从质量参差不齐的数据中挖掘价值? 12月7日,清数大数据产业联盟与清华校友总会AI大数据专委会(筹)共同主办的交通大数据思享会上,黄
大数据文摘
2018-05-24
4660
利用 Scikit Learn的Python数据预处理实战指南
大数据文摘作品,转载要求见文末 编译团队|姚佳灵 吴怡雯 黄念 本文主要关注在Python中进行数据预处理的技术。学习算法的出众表现与特定的数据类型有密切关系。而对于没有经过缩放或非标准化的特征,学习算法则会给出鲁莽的预测。像XGBoost这样的算法明确要求虚拟编码数据,而决策树算法在有些情况下好像完全不关心这些! 简而言之,预处理是指在你将数据“喂给”算法之前进行的一系列转换操作。在Python中,scikit-learn库在sklearn.preprocessing下有预装的功能。有更多的选择来进行预
大数据文摘
2018-05-24
2.5K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档