发布

AIGC 先锋科技

专栏成员
237
文章
57796
阅读量
20
订阅数
CLIP-DQA:借助 CLIP 与层次信息,实现盲去雾图像质量精准预测 !
雾霾是一种常见的自然现象,会显著降低场景中的能见度,导致许多计算机视觉算法,如目标检测[1]、[2]和图像识别[3],出现严重的性能下降。为了缓解这一问题,已经提出了大量的图像去雾算法(DHAs)[4]-[10]。然而,在将这些去雾算法大规模部署之前,评估它们的有效性,即评估它们生成的去雾图像质量,是必要的。
AIGC 先锋科技
2025-03-04
810
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
视觉-语言模型,如CLIP,在庞大的网络规模文本-图像数据集上进行预训练,已在各种下游图像分类任务中展现出令人印象深刻的零样本能力和图像-文本对齐能力。针对少量 Token 数据提升视觉语言模型(VLM)在特定任务上的性能,已经提出了多种 Prompt 学习方法。
AIGC 先锋科技
2025-03-03
910
Mentor-KD 方法解决LLM推理蒸馏挑战,高效将多步推理能力灌输给小模型!
大型语言模型(LLMs)展示出了惊人的新兴能力,在自然语言处理(NLP)领域中展现出了多种推理任务的能力。Brown等人(2020年)、Rae等人、Hoffmann等人和Chowdhery等人的研究都证实了这一点。这种方法中一个特别有趣的方法是连续思维(CoT) Prompt ,通过明确生成复杂任务的中间推理步骤来诱发LLM的多步推理能力。然而,这种推理能力只体现在具有数百亿参数的语言模型(LMs)上,这需要大量的计算资源或昂贵的API调用,限制了它们在资源受限场景中的部署。
AIGC 先锋科技
2025-02-28
910
轻量级MedMobile医学模型登场,38亿参数可移动运行,MedQA得分超医生及格线!
近年来,语言模型(LM)在医疗领域展现出显著的潜力,因为它们具有快速决策的能力和推理和知识的能力[1, 2, 3]。然而,大规模适配语言模型面临几个障碍,包括安全问题和模型服务的巨大计算成本[4, 5]。此外,最强大的大型模型是封闭源的,这阻碍了特定领域的适应[6]。为了克服这些障碍,作者在开源的3.8亿参数语言模型phi-3-mini上进行微调,该模型来自医疗领域的数据。作者将这个经过微调的模型命名为MedMobile,因为这种大小的模型可以在移动设备上运行,并具有廉价的推理成本[7]。MedMobile使用人工筛选的数据(由人类专家编辑)和人工生成的合成数据(由GPT-4和教科书生成)进行微调,展示了小型语言模型可以模拟特定任务的能力,使用来自更大模型(具有高度准确率的合成数据)的人工生成的数据。作者选择使用人工生成的数据,这与原始phi工作一致,这表明小型语言模型可以在较少的数据和参数下发展推理能力[7]。据作者所知,MedMobile是第一个在MedQA[8](一个包含大量USMLE风格的问题的集合)上达到及格分数(约60%)的语言模型,实现了75.7%的准确率。
AIGC 先锋科技
2025-02-27
600
VATT多模态框架实现可控视频到音频生成,凭音频字幕解锁新应用,性能远超现有方法 !
人类感知和认知的结合代表了一种“多模态”的场景处理和解释方式。例如,当作者面对一个喷泉表演的无声视频时,作者的解释可能会将视觉场景转化为一种听觉体验,其中视觉场景在语义上被处理并转化为作者内心相应的声音叙事。因此,作者可能会将伴有人们交谈和笑声的喷泉水花声与可能与喷泉同步的背景音乐联系起来。
AIGC 先锋科技
2025-02-26
700
惊爆!研究提出新颖框架,集成CLIP空间扩展预训练StyleGAN能力,文本引导操作灵活,性能远超现有方法 !
他们面临在分布外图像上的困难。尽管编辑器优化技术非常灵活,但在推理时会带来巨大的计算成本。
AIGC 先锋科技
2025-02-25
1290
新主动学习法LPLgrad来袭,少量标注提图像分类准确率,AI图像识别效率飙升!
由于其卓越的表现和泛化能力,机器学习模型正在迅速地应用于各个领域。这些模型依赖于数据和真实标签来取得成功。然而,获取真实标签通常具有挑战性。例如,在医学影像中,领域专家必须支付费用来标注数据点,而在语音识别中,将音频数据标签到词 Level 比实际语音持续时间要花费大量时间[1]。手动标注过程既耗时又费力[2, 3]。
AIGC 先锋科技
2025-02-25
810
SAFT框架横空出世 !27.8%有害数据自动清零,大模型微调开启自动驾驶式安全升级 !
大型语言模型(LLMs)已成为构建针对个人需求和目的的定制化模型的强大基础。为了实现定制化,一个预训练的LLM通常会经过有监督的微调,这个过程允许LLMs根据任务特定的数据进行自适应和专业化。虽然微调使LLMs在定制数据集上的性能得到提高,但在微调数据中出现有害样本时,也存在安全问题。例如,考虑一个场景,一个对话 Agent 正在社交媒体平台上的用户交互中进行微调。这些交互通常包含有善意的和可能有害的内容,如仇恨言论、错误信息或不当语言。因此,将包含令人反感内容的微调数据应用于LLMs可能会对模型的行为产生不利影响。
AIGC 先锋科技
2025-02-21
930
多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !
在人工智能(AI)的快速发展中,本论文旨在探讨该领域的最新进展和未来趋势。通过综合分析现有研究,本文将为读者提供一个全面的理解,包括AI技术的关键概念、应用领域以及所面临的挑战。随着研究的深入,作者将进一步阐述如何通过技术创新推动AI的发展,以及如何确保其应用的安全性和公正性。
AIGC 先锋科技
2025-02-20
930
TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!
人类图像动画是指根据一系列动作控制信号,从静态的人类图像生成动态且逼真的视频。该领域由于其在电影制作、社交媒体和在线零售等多个行业的广泛应用而受到了广泛关注。尽管生成式人工智能迅速发展,但人类图像动画仍然具有挑战性,因为它需要对帧内连贯性和帧间一致性有全面的理解。
AIGC 先锋科技
2025-02-20
960
LORACLR:用于定制扩散模型的对比适应 !
文本到图像生成的扩散模型[11]已经彻底改变了基于文本 Prompt 的图像合成,这在从Stable Diffusion[29]、Imagen[33]和DALL-E 2[27]取得的重大进展中得到了体现。这些模型的个性化技术进一步提升了其灵活性,使其能够生成特定概念(如角色、物体或艺术风格)的个性化图像。低秩适应(LoRA)[12]已成为一种强大的工具,可用于对预训练模型进行小量再训练以实现定制化,从而实现灵活且高效的个性化。通过将LoRA与高级个性化方法(如DreamBooth[30])结合使用,用户不仅可以保留高保真度,还能捕捉他们独特的创意愿景。
AIGC 先锋科技
2025-02-20
660
中科大提出 SparseLGs: 稀疏视图语言嵌入式高斯扫描  !
近年来,一些研究将Gaussian Splatting与语言嵌入结合,用于开放词汇的3D场景理解。虽然这些方法表现良好,但本质上需要非常密集的多视角输入,这限制了它们在实际应用场景中的适用性。在这项工作中,作者提出了一种名为SparseLGS的方法,以应对无姿态和稀疏视图输入图像下的3D场景理解挑战。
AIGC 先锋科技
2025-02-20
580
使用混合 LORA 专家定制多模态语义分割的 SAM 模型 !
准确分割多样的物体对于各种场景理解应用至关重要,包括机器人感知、自动驾驶和AR/VR等[1]、[2]。段切 Anything 模型(SAM) [3] 在实例分割领域取得了突破性进展,尤其是在RGB图像方面。SAM在包含1100万张高分辨率图像及超过10亿个标注分割 Mask 的大规模数据集上进行训练,实现了卓越的零样本分割性能,使其能够在医疗成像、遥感等多个领域得到广泛应用。
AIGC 先锋科技
2025-02-12
1140
清华提出 Owl-1 全景世界模式:革新长视频生成,重塑视觉体验 !
随着图像生成模型的成功,视频生成也逐渐引起了广泛关注。尽管现有的视频生成模型(VGMs)已经达到了商用 Level 的性能,但所生成的视频时长仍然较短。长视频生成方法通过改善生成视频的长度和一致性来解决这一问题,促进了诸如视频扩展[35]、电影生成[40]和世界模拟[24]等多种新兴任务的发展。
AIGC 先锋科技
2025-02-12
830
借文本语义驱动 Token 化:TexTok 突破图像重建与生成,实现 93.5 倍的推理速度提升 !
近年来,图像生成取得了显著进展,使其在多种应用中能够合成高质量的图像。这一成功的核心在于图像分词技术的发展,该技术通过训练自编码器将原始图像数据压缩为一种紧凑且富有表达力的潜在表示。分词使得生成模型,如扩散模型和自回归模型可以直接在压缩的潜在空间中操作,而不是在高维像素空间中操作,从而大幅提高计算效率并增强生成质量和保真度。
AIGC 先锋科技
2025-02-10
1080
在线高斯自适应革新 OTTA 视觉语言模型 !
视觉-语言对齐已成为一种强大的范式,可用于预训练模型,这些模型能够处理各种下游任务,且在少量或没有 Token 数据的情况下也能胜任。如CLIP[19]这样的对比方法通过联合优化视觉编码器和文本编码器来学习可迁移的视觉表示,从而对配对图像和标题的表示进行对齐。这使创建图像分类器成为可能,而无需重新训练模型,只需使用类别的文本描述。随后,分类过程仅仅依赖于测量文本特征与图像特征之间的相似度,从而实现零样本预测。这已经在广泛认可的监督学习基准,如ImageNet[3]上展示了令人印象深刻的零样本性能。这一成功激励了对适应视觉-语言模型(VLMs)以处理未见任务的方法的研究,从而绕过了重新训练模型的需求,无论是通过 Prompt 优化[20, 32]、低秩适应[26]还是在嵌入空间中的 Adapter 。这些后一种方法特别引人关注,因为它们不需要访问模型权重——被称为黑盒方法——这使得它们适用于基于API的应用。
AIGC 先锋科技
2025-02-10
1210
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
从文本描述生成动态3D场景,这被称为文本到4D场景生成,是计算机视觉和图形学领域最具挑战性的前沿之一。尽管近年来的研究已经极大地增强了作者从文本生成静态3D内容以及2D图像和视频的能力,但合成时间连贯且动画化的3D场景仍然是一个基本的挑战。这一任务不仅需要生成空间一致的3D几何形状和外观,还需要产生符合真实世界物理定律和语义约束的逼真运动——所有这些都需要在多个视角下保持时间一致性。
AIGC 先锋科技
2025-02-07
1160
对 DeepSeek R1 的分析及其对生成式 Ai 的影响 !
在本文中,作者将探讨人工智能领域的最新进展,并分析其在不同行业中的应用。随着技术的不断发展,人工智能正逐渐成为推动社会进步的重要力量。本研究旨在对现有文献进行综述,总结人工智能领域的关键问题,并提出未来研究方向。
AIGC 先锋科技
2025-02-07
2990
LLM 与 BiomedCLIP 携手提升生物医学图像 Prompt 学习的准确性与泛化性 !
最近,视觉语言模型(VLMs)如CLIP在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将VLMs应用到下游任务仍具有挑战性,因为它们的准确性通常依赖于耗时且需要专业知识的时间密集型 Prompt 工程,而全模型微调则成本高昂。
AIGC 先锋科技
2025-02-05
1310
三星提出当视觉模型满足参数高效的旁观适配器时,无需大规模音频预训练 !
在Transformer的时代[1],自我监督学习[2, 3]正在革新中国视觉(CV)和自然语言处理(NLP)等所有领域。预训练加微调的范式已被广泛采纳。然而,与CV和NLP相比,音频领域的挑战在于用于大规模预训练的数据集相对较小。尽管出现了大规模音频分类数据集,如AudioSet[4]和EPIC-SOUNDS[5],但仍然迫切需要更多的数据以支持基于Transformer模型的指数级扩展。
AIGC 先锋科技
2025-01-20
700
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档