首页
学习
活动
专区
工具
TVP
发布

机器之心

专栏作者
8963
文章
6288596
阅读量
277
订阅数
为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新
4 月 26 日,科大讯飞发布讯飞星火大模型 V3.5 的功能上新,其中一个重点就是面向用户各种场景中高效获取信息需求,发布首个长文本、长图文、长语音的大模型,能够支持文档、图文资料、会议录音等各种信息来源的快速理解和学习,还能够结合各种行业场景知识给出专业、准确回答。
机器之心
2024-04-26
10
会颠勺的国产机器人来了:大模型加持,家务能力满分
随着 AI 向 AGI(通用人工智能)的圣杯方向加速发展,大模型与机器人的结合是必然趋势。数十年来,单一用途机器人市场已趋于饱和,AI 通用机器人的巨大潜力急待开垦。
机器之心
2024-04-26
30
奥特曼斯坦福演讲:专注当前AI局限性没用,GPT-5让一切努力过时
昨天,黄仁勋亲自为 OpenAI 送来了全球第一台 Nvidia DGX H200 超级计算机,三人合影(老黄、奥特曼、Greg Brockman )引得大家津津乐道。
机器之心
2024-04-26
20
吴恩达:多智能体协作是新关键,软件开发等任务将更高效
前不久,斯坦福大学教授吴恩达在演讲中提到了智能体的巨大潜力,这也引起了众多讨论。其中,吴恩达谈到基于 GPT-3.5 构建的智能体工作流在应用中表现比 GPT-4 要好。这表明,将目光局限于大模型不一定可取,智能体或许会比其所用的基础模型更加优秀。
机器之心
2024-04-26
50
CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
指代分割 (Referring Image Segmentation,RIS) 是一项极具挑战性的多模态任务,要求算法能够同时理解精细的人类语言和视觉图像信息,并将图像中句子所指代的物体进行像素级别的分割。RIS 技术的突破有望在人机交互、图像编辑、自动驾驶等诸多领域带来革命性变革。它能够极大地提升人机协作的效率和体验。尽管目前最先进的 RIS 算法已经取得了显著进展,但仍然面临着模态差异 (modality gap) 的问题,即图像和文本特征的分布并未完全对齐。这一问题在处理复杂的指代语言表达和罕见语境时尤为突出。
机器之心
2024-04-26
10
国内销量持续领跑,荣耀告诉你切入AI手机的正确姿势
ChatGPT 出现后,科技界迎来技术爆发。自去年底开始,新一代的旗舰手机纷纷引入大模型,它们有的实现了大模型端侧落地,有的推进端云一体,配置了多种 AI 能力,有的引入了第三方 AI 应用。虽然都叫 AI 手机,但发力点各不相同。
机器之心
2024-04-26
10
Open-Sora全面开源升级:支持16s视频生成和720p分辨率
Open-Sora 在开源社区悄悄更新了,现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。
机器之心
2024-04-26
10
黄仁勋亲自给OpenAI送货,全球首台DGX H200开箱了
OpenAI 联合创始人、总裁 Greg Brockman 发推,晒出了自己、OpenAI CEO 奥特曼与英伟达创始人兼 CEO 黄仁勋的合照。
机器之心
2024-04-26
10
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
刚刚,数据管理和仓库提供商 Snowflake 宣布加入 LLM 混战,发布了一款专注于企业级应用的顶级大型语言模型(LLM)——Snowflake Arctic。
机器之心
2024-04-26
20
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
近期,多模态大模型 (MLLM) 在文本中心的 VQA 领域取得了显著进展,尤其是多个闭源模型,例如:GPT4V 和 Gemini,甚至在某些方面展现了超越人类能力的表现。但是开源模型的性能还远远落后于闭源模型,最近许多开创性的研究,例如:MonKey、LLaVAR、TG-Doc、ShareGPT4V 等已开始关注指令微调数据不足的问题。尽管这些努力取得了显著的效果,但仍存在一些问题,图像描述数据和 VQA 数据属于不同的领域,图像内容呈现的粒度和范围存在不一致性。此外,合成数据的规模相对较小,使得 MLLM 无法充分发挥潜力。
机器之心
2024-04-26
20
MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评
继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后,上周,通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了万亿 MoE 模型 abab 6.5。根据 MiniMax 发布的技术报告,在各类核心能力测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。
机器之心
2024-04-26
20
加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了
最近,扩散模型(Diffusion Model)在图像生成领域取得了显著的进展,为图像生成和视频生成任务带来了前所未有的发展机遇。尽管取得了令人印象深刻的结果,扩散模型在推理过程中天然存在的多步数迭代去噪特性导致了较高的计算成本。近期出现了一系列扩散模型蒸馏算法来加速扩散模型的推理过程。这些方法大致可以分为两类:i) 轨迹保持蒸馏;ii) 轨迹重构蒸馏。然而,这两类方法会分别受到效果天花板有限或者或输出域变化这两个问题的限制。
机器之心
2024-04-26
70
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。
机器之心
2024-04-26
20
硬控设计人一分钟,加持大模型的Adobe,PS起来更香了
刚刚,Adobe 正式宣布推出新的图像生成模型 Firefly Image 3,即日起在 Firefly Web 应用程序、Adobe Photoshop 和 Adobe InDesign 中提供测试版,并在「今年晚些时候」全面上市,旨在让创作者能够提高工作效率,生成更高质量、更详细的图像。
机器之心
2024-04-26
30
AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」
在人工智能的前沿领域,大语言模型(Large Language Models,LLMs)由于其强大的能力正吸引着全球研究者的目光。在 LLMs 的研发流程中,预训练阶段占据着举足轻重的地位,它不仅消耗了大量的计算资源,还蕴含着许多尚未揭示的秘密。根据 OpenAI 的研究,在 InstructGPT 的开发过程中,预训练阶段近乎耗尽了全部的算力和数据资源,占比高达 98% [2]。
机器之心
2024-04-26
30
首批中文版Llama3模型来了,解释成语、答弱智吧问题
和以往的原始 Llama 模型一样,Llama 3 对中文的支持效果欠佳,经常会出现你用中文提问,它用英文或中文+英文回复的现象。因此,要想让国内用户用上该模型,开发者还需对其进行微调。
机器之心
2024-04-26
80
挑战拯救痴心“舔狗”,我和大模型都尽力了
游戏规则很简单:如果玩家在几轮对话内说服 “他” 放弃追求对他并无青睐的女神,就算挑战成功。
机器之心
2024-04-26
10
这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数
还记得去年 11 月底爆出来的 Q* 项目吗?这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。如果你想回忆一下,可参看机器之心当时的报道《全网大讨论:引爆 OpenAI 全员乱斗的 Q * 到底是什么?》简而言之,Q* 很可能是 Q 强化学习和 A* 搜索这两种 AI 方法的结合。
机器之心
2024-04-26
50
微软发布Phi-3,性能超Llama-3,可手机端运行
Llama-3 刚发布没多久,竞争对手就来了,而且是可以在手机上运行的小体量模型。
机器之心
2024-04-26
20
Llama3后,Meta又开放自家头显操作系统,打造元宇宙时代新安卓
这次把自家 VR 头显 Quest 采用的操作系统「Meta Horizon OS」向第三方硬件制造商开放了,包括华硕、联想和微软等一众企业。此举意在展示作为 MR 操作系统整合者的 Meta 对元宇宙开放的新愿景。
机器之心
2024-04-26
30
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档