首页
学习
活动
专区
工具
TVP
发布

莫里航海图,最早的大数据实践

尽管如此,仍然可以从中提取出有用的数据。莫里和他的20台“计算机”——那些进行数据处理的人,一起把这些破损的航海日志里记录的信息绘制成了表格,这是一项非常繁重的工作。 ?...莫里整合了数据之后,把整个大西洋按经纬度划分成了五块,并按月份标出了温度、风速 和风向,因为根据时间的不同这些数据也有所不同。整合之后,这些数据显示出了有价值的模式,也提供了更有效的航海路线。...为了改进和完善图表,他需要寻求更多的数据(正如谷歌利用网页排名来获得更多的数据)。莫里让船长定期向海里扔掷标有日期、位置、风向以及当时洋流情况的瓶子,然后再来寻找这些瓶子。...通过分析这些数据,莫里知道了一些良好的天然航线,这些航线上的风向和洋流都非常利 于航行。他所绘制的图表帮助商人们节省了一笔钱,因为航海路程减少了三分之一左右。...摘自《大数据时代》作者 维克托•迈尔-舍恩伯格 翻译盛杨燕 周涛

78070

最早2026?全球优质语言数据「存量」告急!网友:杞人忧天

但大家有没有想过:假如有一天,全世界的数据都用完了那咋整? 实际上,提出这个问题的人绝对没有精神问题,因为这一天——可能真的快来了!!!...他们根据之前对数据集大小趋势的分析,预测了语言和视觉领域数据集大小的增长,估计了未来几十年可用未标记数据总存量的发展趋势。 他们的研究表明:最早在2026年,高质量语言数据就将全部消耗殆尽!...Chinchilla是DeepMind的研究人员提出的一种新型预测计算优化模型。 实际上,此前在对Chinchilla进行实验时,就曾有研究员提出「训练数据很快就会成为扩展大型语言模型的瓶颈」。...因此,如果当前趋势继续保持下去,数据存量被用光将是不可避免的。下表则显示了预测曲线上每个交叉点的中值耗尽年数。 高质量的语言数据库存最早可能在2026年之前用尽。...Efficient Zero是一种能高效采样的强化学习算法,由清华大学的高阳博士提出

47510
您找到你想要的搜索结果了吗?
是的
没有找到

这5个数学猜想最早在30年前提出,如今AI证明它们都错了

要证伪一个数学猜想虽然只需要提出一个反例,但不一定是件容易的事情。比如近期被证伪的单位猜想,从提出到被证伪,相隔了80年的时间。...2、Aouchiche–Hansen提出的关于图的距离谱和邻近性的猜想,由M. Aouchiche 和 P....Johnston在论文“Exact hyperplane covers for subsets of the hypercube”(发表于2020年)中提出的猜想,其提出可以用很少的超平面覆盖超立方体的某些子集...猜想2:关于图的邻近特征值和距离特征值 猜想2:由于Auchiche–Hansen提出。...猜想3:关于树和邻接多项式峰值的距离 该猜想由Collins提出,非零系数的绝对值序列构成单峰序列,其峰值与CPD(T)的归一化系数的峰值位于同一位置。

95320

这5个数学猜想最早在30年前提出,如今AI证明它们都错了

数据文摘授权转载自AI科技评论 编译:琰琰、青暮 近日,以色列特拉维夫大学研究团队在预印论文库提交了一篇名为“Constructions in combinatorics via neural networks...要证伪一个数学猜想虽然只需要提出一个反例,但不一定是件容易的事情。比如近期被证伪的单位猜想,从提出到被证伪,相隔了80年的时间。...2、Aouchiche–Hansen提出的关于图的距离谱和邻近性的猜想,由M. Aouchiche 和 P....Johnston在论文“Exact hyperplane covers for subsets of the hypercube”(发表于2020年)中提出的猜想,其提出可以用很少的超平面覆盖超立方体的某些子集...猜想2:关于图的邻近特征值和距离特征值 猜想2:由于Auchiche–Hansen提出

31530

数据助力发现阿尔茨海默症的最早征兆

研究人员发现,与以前的认识相反,阿尔茨海默症的最初生理标志是大脑血流量减少,而淀粉样蛋白增加曾被认为是阿尔茨海默症最早的可检测标志。...虽然淀粉样蛋白确实发挥了作用,但本研究发现血流量的变化是目前已知的阿尔茨海默症最早的预兆。研究还发现,在病程发展中认知的变化比以前认为开始的要早。...编译和分析数据花费了成千上万个小时的计算时间,如果没有复杂的软件和千兆字节的硬盘空间,这一切是办不到的。Evans介绍说,这种数据驱动的方法在神经学中正变得越来越重要。...因为数据还没有公开,所以我们并不知道这对LOAD研究会有什么样的帮助。Evans指出他的这篇论文只是以ADNI数据为基础而发表的几百篇论文中的一篇。...他说:“我这项研究本身只是论证了ADNI数据的有效性。并且我相信付出总是有回报的,我们利用他人的数据进行研究,同时贡献我们自己的数据。” 这篇论文是阿尔茨海默症研究领域至今为止发表的最全面的一篇文章。

94560

清华联手港最早2020年推出计算机科学双学士学位

因此,不仅仅是两所大学聚集在一起,而是两个城市一起研究目前热但又复杂的AI领域。”...在智能视觉和面部识别等人工智能应用方面,中国科技部将与由内地一位学教授创建的中国香港初创公司SenseTime合作。...当被问及中国香港大学是否在该领域落后时,高教授将人工智能描述为“沙箱”。 一位医疗工程学的教授说:“这是一个非常复杂和庞大的领域。...为了实现这一目标,赵汝恒教授说,中国香港大学和清华大学一直计划推出他们的第一个计算机科学双学士学位(dual undergraduate degree),最早将在2020年实施,该专业的学生将在中国香港大学和清华大学分别学习两年...该大学的科学家们一直致力于使用AI和大数据技术来帮助收集和分析大气污染统计数据,这有助于当局改善城市环境的努力。 他说:“这些都是我们相信可以能够与清华大学一起去探索的领域。”

56320

港中文提出LISA模型:解锁多模态模型“推理分割”能力

本篇文章分享论文 LISA: Reasoning Segmentation via Large Language Model ,由香港中文大学提出 LISA 模型,解锁多模态模型“推理分割”能力。...因此,该研究工作提出一项新任务—— 推理分割 (Reasoning Segmentation),该任务要求模型能够处理复杂的自然语言指令,并给出精细的分割结果。...因此,此项研究工作提出LISA(Large Language Instructed Segmentation Assistant)多模态模型。...实验证明,在训练过程中仅使用不包含复杂推理的分割数据(通过将现有的语义分割数据如ADE20K [6],COCO-Stuff [7]以及现有指代分割数据refCOCO系列 [8]中的每条数据转换成“图像-...此外,进一步使用239个推理分割数据进行微调训练还能显著提升LISA在推理分割任务上的性能。

50170

IBM提出能力驱动认知商业变革

在不久的将来,我们将能看到整个商业模式由于认知技术的推动而发生巨大变化——小到每个人获得的服务和产品、创业者所能拥有的商业创新优势,到传统企业行业的转型、甚至经济和整个社会治理效率的跨越式提升。...IBM大中华区董事长陈黎明 如今随着大数据的普及,所有形式的数据都在不断积累成一种等待被利用的资源,但有80%的数据无法被目前的IT系统处理或理解,因此,企业需要全新的计算工具来挖掘这些资源——这就是IBM...探索和发现:将认知技术应用于海量数据源,人们将能够发现新商业模式、创新机会。认知系统有价值的假设推断,还可以推进尖端科研探索与发现。...IBM还指出,企业的认知转型将是一段旅程,这其中有五个关键要素,包括:制定一套完备的认知策略,加强认知型数据分析能力,优化用于行业、数据和认知API的云服务来打造面向新型开发的平台,优化用于认知工作负载的...IT基础架构,和保证在认知时代下的数据安全。

52340

9数据集、6度量指标完胜对手,周志华等提出用深度森林处理多标签学习

选自arXiv 机器之心编译 参与:路雪、一鸣 近日,南周志华等人首次提出使用深度森林方法解决多标签学习任务。该方法在 9 个基准数据集、6 个多标签度量指标上实现了最优性能。...但是,深度神经网络通常需要巨量训练数据,因而不适合小规模数据集的情况。 周志华教授和冯霁博士意识到,深度学习的本质在于逐层处理、模型内特征变换和足够的模型复杂度,进而提出了深度森林。...这篇论文的主要贡献包括: 首次提出将深度森林应用于多标签学习任务; 实验证明,MLDF 方法在 9 个基准数据集、6 个多标签度量指标上实现了最优性能。...因此,研究者提出了度量感知特征重用机制,在不同度量指标的指引下改进表征。...↓ (↑) 表示值越小(),性能越好。

78130

ClaraLabs提出2019年及未来求职三趋势

在过去的10年里,人们对候选人经历的兴趣呈指数级增长,谷歌趋势数据就证明了这一点。 最重要的是,我们看到越来越多的证据表明,对于那些严肃对待盈利能力的企业来说,求职者的经历不仅仅是“拥有一件好事”。...Lighthouse Research最新的人才获取情绪研究(Talent Acquisition Sentiment Study)中,这些因素结合在一起,最有可能解释为什么“候选人经验”是招聘领导者的三优先考虑因素之一...YouTube是全球第二搜索引擎(流量超过美国在线(AOL)、必应(Bing)和雅虎(Yahoo)的总和)Netflix和其他视频流媒体服务现在占据了全球互联网流量的大部分。...从的方面来看,与候选人经历的其他方面相比,日程安排似乎只是一个小问题。然而,这是与雇主的第一次真正的互动,我们都知道第一印象的重要性。

35150

周志华等提出用自编码器生成恶意训练数据

为此,来自南京大学和创新工场 AI 工程院的研究者提出使用类似自编码器的网络来生成这样的扰动,此类扰动具有较强的鲁棒性和迁移能力,并在 CIFAR-10 等数据集上验证了所提方法的有效性。...受到强化学习中一些常用技术(比如引入目标网络(target-nets)等单独的记录追踪网络来稳定 Q 学习)的启发,本文提出了类似的方法,即在训练自编码器时引入伪更新步骤而解耦训练过程。...本文提出了一种交替更新程序,该程序使用了一些在强化学习中保证稳定性的常用操作,这种方法很简单,但实践证明它是有效的。 ?...最后,本文还提出了一种修改方法以提升效率。注意在训练 f_θ 时存储整个梯度更新的轨迹是一种低效使用内存的方法。...实验 为了验证本文提出方法的有效性,研究者用经典的 MNIST 和 CIFAR-10 数据集进行多分类,并使用 ImageNet 的子集进行二分类。对抗训练数据的随机样本如图 2 所示: ?

52240

英伟达提出7挑战

在不久之前的 GTC 2018,英伟达 CEO 黄仁勋介绍了 PLASTER 框架,从可编程性到学习率 7 挑战来评测深度学习性能。...医学成像的进步和使用还意味着必须把大量数据从医疗器械传给医学专家进行分析。...解决数据量问题有两个选择:一是以较长延迟为代价传输完整信息,二是对数据进行采样并使用技术对其进行重建,但这些技术可能导致错误的重建和诊断。...超大规模数据中心追求能效的最大化,以在固定电源预算的情况下提供尽可能多的推断。 解决方案不是仅仅看哪些单独的处理器拥有更低的能耗。...由于推断服务持续接收新数据并且服务本身也在增长和变化,深度学习模型必须周期性地重新训练。为此,当新数据到达时,IT 机构和软件开发者必须更快地重新训练模型。

86940

英伟达提出7挑战

在不久之前的 GTC 2018,英伟达 CEO 黄仁勋介绍了 PLASTER 框架,从可编程性到学习率 7 挑战来评测深度学习性能。...医学成像的进步和使用还意味着必须把大量数据从医疗器械传给医学专家进行分析。...解决数据量问题有两个选择:一是以较长延迟为代价传输完整信息,二是对数据进行采样并使用技术对其进行重建,但这些技术可能导致错误的重建和诊断。...超大规模数据中心追求能效的最大化,以在固定电源预算的情况下提供尽可能多的推断。 解决方案不是仅仅看哪些单独的处理器拥有更低的能耗。...由于推断服务持续接收新数据并且服务本身也在增长和变化,深度学习模型必须周期性地重新训练。为此,当新数据到达时,IT 机构和软件开发者必须更快地重新训练模型。

78150

数据机遇还是忽悠?

持反方观点,为技术时代的到来欢呼的,一位是北京大学光华管理学院新媒体营销研究中心副主任苏萌,另一位是日本政治家、内阁成员山本一太。...他提出“一台电脑论”,即科学家们研究所需的数据,最好用一台电脑就能装下,否则数据处理会过于繁琐,无助于解决问题。他结合自身经验说,随着数据量的增大,研究的准确性一开始会随之上升,但很快就会趋平。...这有三个原因:一是因为不同机构间的数据还未真正流动起来,目前还只是数据“孤岛”;二是完整的生态产业链还未形成,尽管通过行为数据分析已能够分辨出一个消费者的喜好,但从供应到购买的链条还没建成;三是因为数据分析人才仍然极度匮乏...一位听众挑战正方,说,你们认为大数据过于庞杂纷繁,反而解决不了问题,那是不是说,当处理数据的计算工具变得足够好时,大数据就会变得有用?...正如Howard在发表“失败感言”时所说,“我们并非反对数据,只是反对大而无当的数据数据本身当然非常重要”。人类已经并将继续产生日益庞大的数据,或许不论我们接受与否,大数据时代都已到来。

3.5K81

Depth Anything | 致敬SAM,港&字节提出用于任意图像的深度估计模型,已开源!

arxiv.org/abs/2401.10891 https://github.com/LiheYoung/Depth-Anything https://depth-anything.github.io/ 本文提出一种用于单目深度估计...为此,作者从三个维度进行了探索: 数据集维度,设计了一种数据引擎用于数据收集与自动标注,构建了~62M的大规模无标注数据,这极大程度提升了数据覆盖率、降低泛化误差; 通过利用数据增广工具构建了一种更具挑战性的优化目标...大规模数据集 上表给出了本文所构建的有标签与无标签数据集,相比于MiDaS v3.1,该方案使用的有标签数据集更少(6 vs 12)。...未用NYUv2与KITTI以确保zero-shot评估; Movies与WSVD不再可获取; 某些数据质量比较差,如RedWeb; 尽管实用了更少的有标签数据,但更易获取且多样性的无标签数据足以补偿数据覆盖率并极大提升模型的泛化能力与鲁棒性...作者猜想:当有足够的有标签数据后,从无标签数据中获取的额外知识相当受限。针对此,作者为学生模型制定了更难的优化目标以从额外无标签数据中学习额外的视觉知识。

1.1K20
领券