首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具

AIGC 先锋科技

专栏成员
251
文章
71063
阅读量
20
订阅数
MTVInpaint:多任务视频修复框架,以双分支注意力与两阶段流水线统一完成、插入任务,处理长视频 !
视频修复指的是对视频中静态或动态的局部区域进行修改的过程,确保修复后的视频在空间和时间维度上展现出平滑自然的过渡。
AIGC 先锋科技
2025-04-22
400
FlexWorld:引入视频到视频扩散模型与渐进扩展过程,从单张图像高效生成灵活视角3D 场景 !
从单张图像创建具有灵活视角的3D场景,在直接获取3D数据成本高或不切实际的应用领域(如考古保护和自主导航)中具有变革性潜力。然而,这一任务本质上仍然存在困难:单一的2D观测无法提供足够的信息来消除完整的3D结构歧义。特别是,在推理到极端视角(例如,180°旋转)时,之前被遮挡或完全不存在的内容可能会出现,从而引入显著的不确定性。
AIGC 先锋科技
2025-04-18
670
突破黑盒商业LVLMs对抗难题:局部编码语义细节,随机裁剪优化,提升对抗示例转移性与攻击成功率 !
对抗性攻击一直威胁着AI系统的鲁棒性,特别是在大规模视觉-语言模型(LVLMs)领域。这些模型在融合视觉与语言理解的任务上表现出色,例如图像字幕生成[36]、视觉问答[30, 33]和视觉复杂推理[25, 34]。除了开源解决方案的进步之外,诸如GPT-4o [1]、Claude-3.5 [3] 和 Gemini-2.0 [37]等高级黑盒商业多模态模型也被广泛采用。然而,它们的广泛应用也带来了关键的安全挑战,因为恶意行为者可能利用这些平台传播虚假信息或生成有害输出。要解决这些问题,需要在黑盒环境中进行全面的对抗性测试,在这种环境中,攻击者对模型的内部配置和训练数据知之甚少。
AIGC 先锋科技
2025-04-16
840
自监督方法提升语言模型否定鲁棒性:引入NSPP及NSP变体,在九基准测试及CondaQA表现优异 !
在人工智能(AI)的迅猛发展背景下,本研究旨在探讨人工智能领域的最新进展及其在各个行业的应用。通过对相关文献的回顾和分析,本文将概述当前AI技术的发展趋势,并展望其在未来可能带来的变革。
AIGC 先锋科技
2025-04-14
720
TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !
Transformer [53] 架构对计算机视觉领域产生了深远的影响,它们灵活的注意力模块结构被认为是其成功的关键因素之一。尽管这些架构非常流行,但 Transformer 遇到了计算复杂度问题,因为其注意力机制的计算复杂度呈二次方增长 [2],这导致了计算和内存使用的增加。因此,这给模型优化和扩展带来了重大挑战,阻碍了它们的广泛应用。为应对这一挑战,近期的研究引入了一些亚二次的架构,例如 Mamba 和 RWKV [13, 40]。然而,为了针对各种下游任务从头开始训练专门的亚二次模型,会面临显著的计算负担,并产生更高的二氧化碳排放量。幸运的是,作者观察到许多基于 Transformer 的预训练模型,例如 LLaVA [42] 和 CLIP [42] 等已经公开可用。
AIGC 先锋科技
2025-04-13
1780
LSU-Net:融合轻量级卷积与Token化位移块,动态权重多损失设计助力医学图像高效分割 !
医学图像分割对于提取结构细节以辅助诊断和治疗至关重要。深度学习通过多样化的网络架构显著推动了这一领域的发展,尤其是从UNet [1] 开始的U型编码器-解码器设计。随后,如 [2]、Attention U-Net [3]、UNet3 [4]、Rolling-UNet [5] 和 UNeXt [6] 等模型,引入了嵌套结构和密集跳接等创新,进一步提升了性能。
AIGC 先锋科技
2025-04-09
1790
Wi-Chat:首个基于LLM的 Wi-Fi 人体活动识别系统,开启零样本识别新范式!
大语言模型(LLMs)在ChatGPT等代表性的里程碑推动下取得了显著进展。它们能够以零样本的方式生成类似人类的对话,这标志着人机交互方式的根本转变。此外,最新的大语言模型展现了卓越的推理能力和非凡的泛化能力。然而,它们依赖于互联网文本集合的数据训练,因此在实现对物理世界的深刻理解方面仍有很大差距。与此同时,无处不在的Wi-Fi设备和广泛的Wi-Fi网络为扩展Wi-Fi的功能提供了机会,特别是在感知物理世界方面(Tan等人,2022年)。当Wi-Fi信号穿越物理环境时,它们会与周围的行人和物体相互作用,产生反射、衍射、散射等现象。因此,接收到的信号可以携带大量关于行人和环境的信息。传统的基于Wi-Fi的传感系统可以在物理环境中完成多种传感任务,例如活动识别和定位(Ma等人,2019年)。
AIGC 先锋科技
2025-04-02
2650
SEM-CLIP:用于扫描电子显微镜图像中纳米级缺陷检测的精确少量学习 !
半导体制造是一个复杂且多面的过程,其中缺陷可能是由于工艺不当或设备问题引起的。为了实现实时监控,会捕捉SEM图像并基于缺陷的外观对其进行分类,从而帮助缺陷检测和根本原因分析。与粗略的晶圆级缺陷图谱不同,SEM图像可以提供更详细的缺陷特征,从而有助于确定具体的过程步骤和设备。目前,缺陷检测主要依赖人工操作,这既费时又容易出错。开发自动缺陷检测系统已成为一种趋势。
AIGC 先锋科技
2025-03-29
850
SeNER:结合双向机制与 LogNScaling,轻量级 NER 技术高效提取长文本实体 !
命名实体识别(NER)是信息抽取(IE)领域的一项基础任务,旨在识别表示特定类型实体的跨度。它是关系抽取(Miwa和Bansal,2016年)、知识图谱构建(Xu等人,2017年)和问答系统(Molla、Van Zaanen和Smith,2006年)等众多下游任务的基础。
AIGC 先锋科技
2025-03-24
1890
RELAY让循环 Transformer 助力CoT推理,微调自回归模型,实验证实效果显著提升!
推理在塑造有效的决策过程和指导人工智能系统中的问题解决策略方面发挥着核心作用。对于大语言模型(LLMs)而言,实现推理的最有效方法是通过思维链,该方法逐个生成所有中间步骤的 Token ,直到最终答案得出。然而,利用LLMs生成正确的推理过程具有挑战性。一方面,思维链过程可能非常长,有时与 Prompt 长度呈多项式增长。当推理长度超过训练数据长度时,会遇到长度泛化问题,导致准确性显著下降。另一方面,网络数据通常存在噪声,从错误的轨迹中学习可能导致错误答案。虽然合成数据可以缓解这一问题,但生成和整理这些数据需要大量的人力和专业知识。
AIGC 先锋科技
2025-03-18
490
HumanDiT 姿势引导框架来袭,支持多分辨率,长序列视频生成精准又高保真 !
近年来,生成逼真的人类运动视频受到了广泛关注,特别是在生成式人工智能的进步之后。与图像生成相比,视频生成面临更大的挑战,因为它不仅需要高质量的视觉效果,还需要帧与帧之间平滑的时间一致性,以保持视觉连贯性[68]。虚拟人类、动画电影和沉浸式体验等应用推动了可靠、高质量运动视频生成方法的需求。
AIGC 先锋科技
2025-03-17
1640
MatIR 混合图像修复模型,融合 Transformer 与 Mamba 优势,实验验证显著成效 !
图像恢复旨在从退化或损坏的输入中恢复清晰且高质量的图像。这是计算机视觉中的一个长期问题,包括了一系列子问题,如超分辨率、图像去噪和去模糊。随着现代深度学习模型,如卷积神经网络CNNs 和 Transformer 的引入,近几年来,该领域的最先进性能得到了持续提升。去噪、去模糊和超分辨率等任务需要能够准确重建图像细节同时保留结构信息的模型。传统的基于卷积的方法通常无法捕捉到涉及大或严重退化图像的任务中至关重要的长距离依赖关系。深度学习领域的最新进展,如Transformer架构,在捕捉图像中的全局依赖性方面显示出了潜力。然而,Transformer的计算成本随序列长度的平方增长,这限制了其可扩展性,尤其是在高分辨率图像恢复任务中,这些任务以二次复杂度为代价提供了全局感受野。
AIGC 先锋科技
2025-03-12
1330
MatIR:融合Mamba与 Transformer 的混合图像修复模型,实验验证其显著有效性!
图像恢复旨在从退化或损坏的输入中恢复清晰且高质量的图像。这是计算机视觉中的一个长期问题,包括了一系列子问题,如超分辨率、图像去噪和去模糊。随着现代深度学习模型,如卷积神经网络CNNs 和 Transformer 的引入,近几年来,该领域的最先进性能得到了持续提升。去噪、去模糊和超分辨率等任务需要能够准确重建图像细节同时保留结构信息的模型。传统的基于卷积的方法通常无法捕捉到涉及大或严重退化图像的任务中至关重要的长距离依赖关系。深度学习领域的最新进展,如Transformer架构,在捕捉图像中的全局依赖性方面显示出了潜力。然而,Transformer的计算成本随序列长度的平方增长,这限制了其可扩展性,尤其是在高分辨率图像恢复任务中,这些任务以二次复杂度为代价提供了全局感受野。
AIGC 先锋科技
2025-03-10
1410
新颖故事化视频生成方法DreamRunner,性能超基线,多目标交互生成能力超绝!
最近,故事化视频生成(SVG)作为一种任务,旨在创建长、多动作、多场景视频,这些视频始终以输入文本脚本中描述的故事为主题。SVG在媒体和娱乐领域的多样化内容创作方面具有巨大潜力;
AIGC 先锋科技
2025-03-10
1620
CLIP-DQA:借助 CLIP 与层次信息,实现盲去雾图像质量精准预测 !
雾霾是一种常见的自然现象,会显著降低场景中的能见度,导致许多计算机视觉算法,如目标检测[1]、[2]和图像识别[3],出现严重的性能下降。为了缓解这一问题,已经提出了大量的图像去雾算法(DHAs)[4]-[10]。然而,在将这些去雾算法大规模部署之前,评估它们的有效性,即评估它们生成的去雾图像质量,是必要的。
AIGC 先锋科技
2025-03-04
1160
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
视觉-语言模型,如CLIP,在庞大的网络规模文本-图像数据集上进行预训练,已在各种下游图像分类任务中展现出令人印象深刻的零样本能力和图像-文本对齐能力。针对少量 Token 数据提升视觉语言模型(VLM)在特定任务上的性能,已经提出了多种 Prompt 学习方法。
AIGC 先锋科技
2025-03-03
1130
Mentor-KD 方法解决LLM推理蒸馏挑战,高效将多步推理能力灌输给小模型!
大型语言模型(LLMs)展示出了惊人的新兴能力,在自然语言处理(NLP)领域中展现出了多种推理任务的能力。Brown等人(2020年)、Rae等人、Hoffmann等人和Chowdhery等人的研究都证实了这一点。这种方法中一个特别有趣的方法是连续思维(CoT) Prompt ,通过明确生成复杂任务的中间推理步骤来诱发LLM的多步推理能力。然而,这种推理能力只体现在具有数百亿参数的语言模型(LMs)上,这需要大量的计算资源或昂贵的API调用,限制了它们在资源受限场景中的部署。
AIGC 先锋科技
2025-02-28
1010
轻量级MedMobile医学模型登场,38亿参数可移动运行,MedQA得分超医生及格线!
近年来,语言模型(LM)在医疗领域展现出显著的潜力,因为它们具有快速决策的能力和推理和知识的能力[1, 2, 3]。然而,大规模适配语言模型面临几个障碍,包括安全问题和模型服务的巨大计算成本[4, 5]。此外,最强大的大型模型是封闭源的,这阻碍了特定领域的适应[6]。为了克服这些障碍,作者在开源的3.8亿参数语言模型phi-3-mini上进行微调,该模型来自医疗领域的数据。作者将这个经过微调的模型命名为MedMobile,因为这种大小的模型可以在移动设备上运行,并具有廉价的推理成本[7]。MedMobile使用人工筛选的数据(由人类专家编辑)和人工生成的合成数据(由GPT-4和教科书生成)进行微调,展示了小型语言模型可以模拟特定任务的能力,使用来自更大模型(具有高度准确率的合成数据)的人工生成的数据。作者选择使用人工生成的数据,这与原始phi工作一致,这表明小型语言模型可以在较少的数据和参数下发展推理能力[7]。据作者所知,MedMobile是第一个在MedQA[8](一个包含大量USMLE风格的问题的集合)上达到及格分数(约60%)的语言模型,实现了75.7%的准确率。
AIGC 先锋科技
2025-02-27
820
VATT多模态框架实现可控视频到音频生成,凭音频字幕解锁新应用,性能远超现有方法 !
人类感知和认知的结合代表了一种“多模态”的场景处理和解释方式。例如,当作者面对一个喷泉表演的无声视频时,作者的解释可能会将视觉场景转化为一种听觉体验,其中视觉场景在语义上被处理并转化为作者内心相应的声音叙事。因此,作者可能会将伴有人们交谈和笑声的喷泉水花声与可能与喷泉同步的背景音乐联系起来。
AIGC 先锋科技
2025-02-26
910
惊爆!研究提出新颖框架,集成CLIP空间扩展预训练StyleGAN能力,文本引导操作灵活,性能远超现有方法 !
他们面临在分布外图像上的困难。尽管编辑器优化技术非常灵活,但在推理时会带来巨大的计算成本。
AIGC 先锋科技
2025-02-25
1610
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档