首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具

AIGC 先锋科技

专栏成员
245
文章
64165
阅读量
20
订阅数
Wi-Chat:首个基于LLM的 Wi-Fi 人体活动识别系统,开启零样本识别新范式!
大语言模型(LLMs)在ChatGPT等代表性的里程碑推动下取得了显著进展。它们能够以零样本的方式生成类似人类的对话,这标志着人机交互方式的根本转变。此外,最新的大语言模型展现了卓越的推理能力和非凡的泛化能力。然而,它们依赖于互联网文本集合的数据训练,因此在实现对物理世界的深刻理解方面仍有很大差距。与此同时,无处不在的Wi-Fi设备和广泛的Wi-Fi网络为扩展Wi-Fi的功能提供了机会,特别是在感知物理世界方面(Tan等人,2022年)。当Wi-Fi信号穿越物理环境时,它们会与周围的行人和物体相互作用,产生反射、衍射、散射等现象。因此,接收到的信号可以携带大量关于行人和环境的信息。传统的基于Wi-Fi的传感系统可以在物理环境中完成多种传感任务,例如活动识别和定位(Ma等人,2019年)。
AIGC 先锋科技
2025-04-02
300
SEM-CLIP:用于扫描电子显微镜图像中纳米级缺陷检测的精确少量学习 !
半导体制造是一个复杂且多面的过程,其中缺陷可能是由于工艺不当或设备问题引起的。为了实现实时监控,会捕捉SEM图像并基于缺陷的外观对其进行分类,从而帮助缺陷检测和根本原因分析。与粗略的晶圆级缺陷图谱不同,SEM图像可以提供更详细的缺陷特征,从而有助于确定具体的过程步骤和设备。目前,缺陷检测主要依赖人工操作,这既费时又容易出错。开发自动缺陷检测系统已成为一种趋势。
AIGC 先锋科技
2025-03-29
550
SeNER:结合双向机制与 LogNScaling,轻量级 NER 技术高效提取长文本实体 !
命名实体识别(NER)是信息抽取(IE)领域的一项基础任务,旨在识别表示特定类型实体的跨度。它是关系抽取(Miwa和Bansal,2016年)、知识图谱构建(Xu等人,2017年)和问答系统(Molla、Van Zaanen和Smith,2006年)等众多下游任务的基础。
AIGC 先锋科技
2025-03-24
1440
RELAY让循环 Transformer 助力CoT推理,微调自回归模型,实验证实效果显著提升!
推理在塑造有效的决策过程和指导人工智能系统中的问题解决策略方面发挥着核心作用。对于大语言模型(LLMs)而言,实现推理的最有效方法是通过思维链,该方法逐个生成所有中间步骤的 Token ,直到最终答案得出。然而,利用LLMs生成正确的推理过程具有挑战性。一方面,思维链过程可能非常长,有时与 Prompt 长度呈多项式增长。当推理长度超过训练数据长度时,会遇到长度泛化问题,导致准确性显著下降。另一方面,网络数据通常存在噪声,从错误的轨迹中学习可能导致错误答案。虽然合成数据可以缓解这一问题,但生成和整理这些数据需要大量的人力和专业知识。
AIGC 先锋科技
2025-03-18
440
HumanDiT 姿势引导框架来袭,支持多分辨率,长序列视频生成精准又高保真 !
近年来,生成逼真的人类运动视频受到了广泛关注,特别是在生成式人工智能的进步之后。与图像生成相比,视频生成面临更大的挑战,因为它不仅需要高质量的视觉效果,还需要帧与帧之间平滑的时间一致性,以保持视觉连贯性[68]。虚拟人类、动画电影和沉浸式体验等应用推动了可靠、高质量运动视频生成方法的需求。
AIGC 先锋科技
2025-03-17
1320
MatIR 混合图像修复模型,融合 Transformer 与 Mamba 优势,实验验证显著成效 !
图像恢复旨在从退化或损坏的输入中恢复清晰且高质量的图像。这是计算机视觉中的一个长期问题,包括了一系列子问题,如超分辨率、图像去噪和去模糊。随着现代深度学习模型,如卷积神经网络CNNs 和 Transformer 的引入,近几年来,该领域的最先进性能得到了持续提升。去噪、去模糊和超分辨率等任务需要能够准确重建图像细节同时保留结构信息的模型。传统的基于卷积的方法通常无法捕捉到涉及大或严重退化图像的任务中至关重要的长距离依赖关系。深度学习领域的最新进展,如Transformer架构,在捕捉图像中的全局依赖性方面显示出了潜力。然而,Transformer的计算成本随序列长度的平方增长,这限制了其可扩展性,尤其是在高分辨率图像恢复任务中,这些任务以二次复杂度为代价提供了全局感受野。
AIGC 先锋科技
2025-03-12
1170
MatIR:融合Mamba与 Transformer 的混合图像修复模型,实验验证其显著有效性!
图像恢复旨在从退化或损坏的输入中恢复清晰且高质量的图像。这是计算机视觉中的一个长期问题,包括了一系列子问题,如超分辨率、图像去噪和去模糊。随着现代深度学习模型,如卷积神经网络CNNs 和 Transformer 的引入,近几年来,该领域的最先进性能得到了持续提升。去噪、去模糊和超分辨率等任务需要能够准确重建图像细节同时保留结构信息的模型。传统的基于卷积的方法通常无法捕捉到涉及大或严重退化图像的任务中至关重要的长距离依赖关系。深度学习领域的最新进展,如Transformer架构,在捕捉图像中的全局依赖性方面显示出了潜力。然而,Transformer的计算成本随序列长度的平方增长,这限制了其可扩展性,尤其是在高分辨率图像恢复任务中,这些任务以二次复杂度为代价提供了全局感受野。
AIGC 先锋科技
2025-03-10
1030
新颖故事化视频生成方法DreamRunner,性能超基线,多目标交互生成能力超绝!
最近,故事化视频生成(SVG)作为一种任务,旨在创建长、多动作、多场景视频,这些视频始终以输入文本脚本中描述的故事为主题。SVG在媒体和娱乐领域的多样化内容创作方面具有巨大潜力;
AIGC 先锋科技
2025-03-10
1470
CLIP-DQA:借助 CLIP 与层次信息,实现盲去雾图像质量精准预测 !
雾霾是一种常见的自然现象,会显著降低场景中的能见度,导致许多计算机视觉算法,如目标检测[1]、[2]和图像识别[3],出现严重的性能下降。为了缓解这一问题,已经提出了大量的图像去雾算法(DHAs)[4]-[10]。然而,在将这些去雾算法大规模部署之前,评估它们的有效性,即评估它们生成的去雾图像质量,是必要的。
AIGC 先锋科技
2025-03-04
1010
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
视觉-语言模型,如CLIP,在庞大的网络规模文本-图像数据集上进行预训练,已在各种下游图像分类任务中展现出令人印象深刻的零样本能力和图像-文本对齐能力。针对少量 Token 数据提升视觉语言模型(VLM)在特定任务上的性能,已经提出了多种 Prompt 学习方法。
AIGC 先锋科技
2025-03-03
1010
Mentor-KD 方法解决LLM推理蒸馏挑战,高效将多步推理能力灌输给小模型!
大型语言模型(LLMs)展示出了惊人的新兴能力,在自然语言处理(NLP)领域中展现出了多种推理任务的能力。Brown等人(2020年)、Rae等人、Hoffmann等人和Chowdhery等人的研究都证实了这一点。这种方法中一个特别有趣的方法是连续思维(CoT) Prompt ,通过明确生成复杂任务的中间推理步骤来诱发LLM的多步推理能力。然而,这种推理能力只体现在具有数百亿参数的语言模型(LMs)上,这需要大量的计算资源或昂贵的API调用,限制了它们在资源受限场景中的部署。
AIGC 先锋科技
2025-02-28
970
轻量级MedMobile医学模型登场,38亿参数可移动运行,MedQA得分超医生及格线!
近年来,语言模型(LM)在医疗领域展现出显著的潜力,因为它们具有快速决策的能力和推理和知识的能力[1, 2, 3]。然而,大规模适配语言模型面临几个障碍,包括安全问题和模型服务的巨大计算成本[4, 5]。此外,最强大的大型模型是封闭源的,这阻碍了特定领域的适应[6]。为了克服这些障碍,作者在开源的3.8亿参数语言模型phi-3-mini上进行微调,该模型来自医疗领域的数据。作者将这个经过微调的模型命名为MedMobile,因为这种大小的模型可以在移动设备上运行,并具有廉价的推理成本[7]。MedMobile使用人工筛选的数据(由人类专家编辑)和人工生成的合成数据(由GPT-4和教科书生成)进行微调,展示了小型语言模型可以模拟特定任务的能力,使用来自更大模型(具有高度准确率的合成数据)的人工生成的数据。作者选择使用人工生成的数据,这与原始phi工作一致,这表明小型语言模型可以在较少的数据和参数下发展推理能力[7]。据作者所知,MedMobile是第一个在MedQA[8](一个包含大量USMLE风格的问题的集合)上达到及格分数(约60%)的语言模型,实现了75.7%的准确率。
AIGC 先锋科技
2025-02-27
650
VATT多模态框架实现可控视频到音频生成,凭音频字幕解锁新应用,性能远超现有方法 !
人类感知和认知的结合代表了一种“多模态”的场景处理和解释方式。例如,当作者面对一个喷泉表演的无声视频时,作者的解释可能会将视觉场景转化为一种听觉体验,其中视觉场景在语义上被处理并转化为作者内心相应的声音叙事。因此,作者可能会将伴有人们交谈和笑声的喷泉水花声与可能与喷泉同步的背景音乐联系起来。
AIGC 先锋科技
2025-02-26
790
惊爆!研究提出新颖框架,集成CLIP空间扩展预训练StyleGAN能力,文本引导操作灵活,性能远超现有方法 !
他们面临在分布外图像上的困难。尽管编辑器优化技术非常灵活,但在推理时会带来巨大的计算成本。
AIGC 先锋科技
2025-02-25
1510
新主动学习法LPLgrad来袭,少量标注提图像分类准确率,AI图像识别效率飙升!
由于其卓越的表现和泛化能力,机器学习模型正在迅速地应用于各个领域。这些模型依赖于数据和真实标签来取得成功。然而,获取真实标签通常具有挑战性。例如,在医学影像中,领域专家必须支付费用来标注数据点,而在语音识别中,将音频数据标签到词 Level 比实际语音持续时间要花费大量时间[1]。手动标注过程既耗时又费力[2, 3]。
AIGC 先锋科技
2025-02-25
890
SAFT框架横空出世 !27.8%有害数据自动清零,大模型微调开启自动驾驶式安全升级 !
大型语言模型(LLMs)已成为构建针对个人需求和目的的定制化模型的强大基础。为了实现定制化,一个预训练的LLM通常会经过有监督的微调,这个过程允许LLMs根据任务特定的数据进行自适应和专业化。虽然微调使LLMs在定制数据集上的性能得到提高,但在微调数据中出现有害样本时,也存在安全问题。例如,考虑一个场景,一个对话 Agent 正在社交媒体平台上的用户交互中进行微调。这些交互通常包含有善意的和可能有害的内容,如仇恨言论、错误信息或不当语言。因此,将包含令人反感内容的微调数据应用于LLMs可能会对模型的行为产生不利影响。
AIGC 先锋科技
2025-02-21
1000
多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !
在人工智能(AI)的快速发展中,本论文旨在探讨该领域的最新进展和未来趋势。通过综合分析现有研究,本文将为读者提供一个全面的理解,包括AI技术的关键概念、应用领域以及所面临的挑战。随着研究的深入,作者将进一步阐述如何通过技术创新推动AI的发展,以及如何确保其应用的安全性和公正性。
AIGC 先锋科技
2025-02-20
940
TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!
人类图像动画是指根据一系列动作控制信号,从静态的人类图像生成动态且逼真的视频。该领域由于其在电影制作、社交媒体和在线零售等多个行业的广泛应用而受到了广泛关注。尽管生成式人工智能迅速发展,但人类图像动画仍然具有挑战性,因为它需要对帧内连贯性和帧间一致性有全面的理解。
AIGC 先锋科技
2025-02-20
1060
LORACLR:用于定制扩散模型的对比适应 !
文本到图像生成的扩散模型[11]已经彻底改变了基于文本 Prompt 的图像合成,这在从Stable Diffusion[29]、Imagen[33]和DALL-E 2[27]取得的重大进展中得到了体现。这些模型的个性化技术进一步提升了其灵活性,使其能够生成特定概念(如角色、物体或艺术风格)的个性化图像。低秩适应(LoRA)[12]已成为一种强大的工具,可用于对预训练模型进行小量再训练以实现定制化,从而实现灵活且高效的个性化。通过将LoRA与高级个性化方法(如DreamBooth[30])结合使用,用户不仅可以保留高保真度,还能捕捉他们独特的创意愿景。
AIGC 先锋科技
2025-02-20
770
中科大提出 SparseLGs: 稀疏视图语言嵌入式高斯扫描  !
近年来,一些研究将Gaussian Splatting与语言嵌入结合,用于开放词汇的3D场景理解。虽然这些方法表现良好,但本质上需要非常密集的多视角输入,这限制了它们在实际应用场景中的适用性。在这项工作中,作者提出了一种名为SparseLGS的方法,以应对无姿态和稀疏视图输入图像下的3D场景理解挑战。
AIGC 先锋科技
2025-02-20
740
点击加载更多
活动推荐
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文