首页
学习
活动
专区
工具
TVP
发布

机器之心

专栏作者
8931
文章
6279487
阅读量
277
订阅数
刷爆多模态任务榜单!贾佳亚团队Mini-Gemini登热榜,代码、模型、数据全部开源
更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,香港中文大学终身教授贾佳亚团队提出的这款多模态模型 Mini-Gemini 堪称绝绝子,相当于开源社区的 GPT4+DALLE3 的王炸组合!
机器之心
2024-04-19
820
曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源
风格化图像生成,也常称为风格迁移,其目标是生成与参考图像风格一致的图像。此前基于 diffusion 的方法(比如 LoRA)通常需要批量的同风格数据进行训练,无法迁移到新的风格中,或者基于 inversion(如 StyleAlign),通过将风格图像还原到 latent noise 后,将其前向传播得到的 K、V 用于替换风格图像生成中的 K、V,但这类方法往往由于 inversion 的操作,造成风格退化。
机器之心
2024-04-14
1400
长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale AI数据库正式开源
大模型(LLM)的浪潮已经涌动一年多了,尤其是以 GPT-4、Gemini-1.5、Claude-3 等为代表的模型你方唱罢我登场,成为当之无愧的风口。在 LLM 这条赛道上,有的研究专注于增加模型参数,有的疯狂卷多模态…… 这当中,LLM 处理上下文长度的能力成为了评估模型的一个重要指标,更强的上下文意味着模型拥有更强的检索性能。例如有些模型一口气可以处理高达 100 万 token 的能力让不少研究者开始思考,RAG (Retrieval-Augmented Generation,检索增强生成)方法还有存在的必要吗?
机器之心
2024-04-12
2420
7B超越百亿级,北大开源aiXcoder-7B最强代码大模型,企业部署最佳选择
当下,大语言模型集成至编程领域、完成代码生成与补全任务成为重要趋势。业界已经出现了一批引人瞩目的代码大模型,比如 OpenAI 的 CodeX、谷歌 DeepMind 的 AlphaCode、HuggingFace 的 StarCoder,帮助程序员更迅捷、更准确、更高质量地完成编码任务,大幅提升效率。
机器之心
2024-04-12
3310
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
最近,多模态大模型(LMM)取得了一系列引人注目的成就,特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性,也为更多视觉场景下的应用探索了新的道路。
机器之心
2024-04-12
1500
Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话
近日,腾讯开源发布的一个新项目在推上获得了如此评价。这个项目是 AniPortrait,其可基于音频和一张参考图像生成高质量动画人像。
机器之心
2024-04-12
620
CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法
物体姿态估计对于各种应用至关重要,例如机器人操纵和混合现实。实例级方法通常需要纹理 CAD 模型来生成训练数据,并且不能应用于测试时未见过的新物体;而类别级方法消除了这些假设(实例训练和 CAD 模型),但获取类别级训练数据需要应用额外的姿态标准化和检查步骤。
机器之心
2024-04-12
950
开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star
上个月火遍 AI 圈的「首位 AI 程序员」Devin,利用大模型能力已经掌握了全栈技能,仅需要人类给出自然语言指令,就可以自动完成复杂的代码任务。
机器之心
2024-04-12
960
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
2022 年底,随着 ChatGPT 的爆火,人类正式进入了大模型时代。然而,训练大模型需要的时空消耗依然居高不下,给大模型的普及和发展带来了巨大困难。面对这一挑战,原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2],带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩,将微调技术带进千家万户。
机器之心
2024-04-12
880
Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量
自 2017 年开创性研究论文《Attention is All You Need》问世以来,transformer 架构就一直主导着生成式人工智能领域。
机器之心
2024-04-12
4410
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
今日,社媒平台 reddit 上的一则帖子引起网友热议。帖子讨论的是谷歌 DeepMind 昨日提交的一篇论文《Long-form factuality in large language models》(大语言模型的长篇事实性),文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说,大语言模型幻觉不再是问题了。
机器之心
2024-04-12
810
Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩
近日,由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星,在 Twitter 更是「火出圈」,吸引了大量博主二创,浏览量总量达到 300K。
机器之心
2024-04-12
1450
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
prompt:Wide shot of battlefield, stormtroopers running...
机器之心
2024-04-12
860
详解Latte:去年底上线的全球首个开源文生视频DiT
随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。
机器之心
2024-04-12
1690
ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景
RLHF 通过学习人类偏好,能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导,得到了很高的关注,在不同环境中选择合适的人类反馈类型和不同的学习方法至关重要。
机器之心
2024-04-12
610
Stability AI开源3B代码生成模型:可补全,还能Debug
本周一,Stability AI 开源了小体量预训练模型 Stable Code Instruct 3B。
机器之心
2024-03-27
990
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
尽管多模态大模型(例如 GPT4-Vision、Gemini 等)展现出了强大的通用图文理解能力,它们在回答需要专业知识的问题时表现依然不尽人意。即使 GPT4-Vision 也无法回答知识密集型问题(图一上),这成为了很多企业级落地应用的瓶颈。
机器之心
2024-03-26
1840
32K上下文,Mistral 7B v0.2 基模型突然开源了
这次开源一如既往地「突然」,是在一个叫做 Cerebral Valley 的黑客松活动上公布的。
机器之心
2024-03-26
1040
突发!Stability AI的CEO,跑路了
周六上午,Stability AI 突然发布一项公告,宣布公司 CEO Emad Mostaque 辞职。
机器之心
2024-03-26
850
复刻Sora的通用视频生成能力,开源多智能体框架Mora来了
Sora 是首个引起社会广泛关注的大规模通用视频生成模型。自 OpenAI 在 2024 年 2 月推出以来,没有其他视频生成模型能够在性能或支持广泛视频生成任务的能力上与 Sora 匹敌。此外,完全公开的视频生成模型寥寥无几,大多数都是闭源的。
机器之心
2024-03-26
760
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档