首页
学习
活动
专区
工具
TVP
发布

AIGC 先锋科技

专栏成员
175
文章
35241
阅读量
20
订阅数
ProLIP模型:首个使用概率目标进行亿级图像-文本数据预训练的VLMs !
视觉语言模型(VLMs)旨在实现视觉和语言的联合嵌入空间,已成为近年来机器学习领域的重要基石。在训练过程中,VLMs通过对比学习将一对对齐的图像-文本(例如,一张图像及其对应的描述)映射到相同的空间。从大规模图像-文本对齐数据集中学习到的丰富的联合表示在各种下游任务上取得了显著的成功,例如零样本分类(将类标签视为模版文本,例如,一张照片)或图像-文本跨模态检索。
AIGC 先锋科技
2024-11-12
180
LLM 视觉语言模型在动作识别中是否有效?
近年来,得益于大规模预训练,许多视觉语言基础模型在许多下游视觉任务上取得了显著成果,展现出了强大的泛化能力。其中,具有视觉语言预训练的模型,如 CLIP 及其在视频任务上的成功继承者,彻底改变了众多下游任务,展示了前所未有的灵活性和性能。
AIGC 先锋科技
2024-11-11
280
Moonshine 用于实时转录和语音命令的语音识别 !
实时自动语音识别(ASR)对于许多应用至关重要,包括在演讲中的实时转录、听力障碍人士的辅助工具以及智能设备和可穿戴设备中的语音命令处理。这些应用通常直接在低成本硬件上运行,严格的资源约束和缺乏互联网连接带来了其他ASR领域所不存在的独特技术挑战。
AIGC 先锋科技
2024-11-11
400
无需额外训练,基于 Llama-2模型,通过 Model-GLUE 实现大规模语言模型的聚合与集成 !
大型语言模型(LLMs)在各种自然语言任务上展示了无与伦比的性能,涵盖了常识推理、问答以及甚至像数学和编程等专业化领域。LLM的有效性基于扩展定律,该定律提出,模型和训练数据规模的增加与模型性能的提升相关[27]。然而,随着LLM继续扩展,计算开销和数据需求也在增加。
AIGC 先锋科技
2024-11-08
930
南京大学 & 上海 AI Lab & 港中文提出目标检测新视角 | CLIP数据选择框架在 CV 任务中的扩展研究 !
深度学习技术的最新进展通常依赖于越来越大、越来越复杂的模型,这些模型利用庞大的数据集实现最先进的表现。刘等人; Touvron等人。然而,这种成功通常伴随着数据存储和计算资源的巨大成本,这可能甚至限制模型在专业基础设施上的部署,并阻碍它们在不同应用场景中的可扩展性。此外,实际数据集通常包含冗余和噪声,这可能降低训练效率和性能。
AIGC 先锋科技
2024-11-07
960
Y-MoD:探索深度混合适应性,适用于多模式大语言模型 !
近年来,自然语言处理(NLP)领域大型语言模型(LLMs)取得了巨大成功,这吸引了越来越多的关注,以将其扩展到视觉语言(VL)任务。尽管取得了进步,但最近的多模态大型语言模型(MLLMs)往往受到其昂贵的计算成本的批评。例如,现有 MLLMs 的推理速度仍远低于实际需求,例如每秒4.7个样本。受NLP进步的推动,最近的技术进步采用了混合专家(MoEs)来减少MLLMs的“激活参数”,从而在效率和性能之间实现了权衡。
AIGC 先锋科技
2024-11-06
1050
Propulsion 超越 LoRA,大幅降低参数量,高效微调降低 NLP 任务计算成本 !
训练大型语言模型需要消耗大量的计算资源,有时甚至需要花费长达六个月的赵等(2023年)。这为人工智能的发展带来了瓶颈并引发了环境问题。为了缓解这一问题,作者通常会选择微调预训练模型,如BERT Devlin等人(2018年)、GPT Mann等人(2020年)和RoBERTa Liu等人(2019年),而不是从头开始训练。然而,由于这些预训练模型的大小较大,微调这些模型仍然具有挑战性。例如,现代LLMs(大语言模型)可以有高达70亿个参数Jiang等人(2023年);Touvron等人(2023年);Almazrouei等人(2023年);Le Scao等人(2023年)。传统完全模型微调是有效的,但通常既昂贵又低效,受制于计算资源和时间Bender等人(2021年);Kim等人(2024年);吴等人(2024年)。
AIGC 先锋科技
2024-11-05
730
视觉 RWKV-HD 和 UHD:推进高分辨率处理的视觉语言模型 !
随着大型语言模型的显著进步,视觉语言模型(VLMs)也迅速发展。扩展LLMs以处理视觉输入并通过视觉指令调优的方法正在逐步增加。同时,线性时间复杂度的视觉语言模型,如 VisualRWKV 和VL-Mamba(Qiao等人,2024年)也被提出。然而,在线性视觉语言模型中高效处理高分辨率视觉输入的研究仍有所欠缺。提高图像分辨率可以改善视觉感知能力,不仅减少幻觉,还能提高需要高分辨率的任务的性能。然而,高分辨率图像的挑战在于它们通常会导致增加的计算需求和更长的输入序列,这可能阻碍模型效率和性能。
AIGC 先锋科技
2024-11-04
940
结合LLMs与TPPs:通过文本事件描述和时间嵌入提升事件序列建模能力 !
时间点过程(Temporal point processes, TPPs)(Shchur等,2021年)是建模事件随时间发生的有力的工具,广泛应用于社交网络、城市动态学、交通、自然灾害和电子商务等领域。预测未来事件类型和时间的挑战,导致了越来越复杂的模型的发展。传统的TPP模型通常依赖于手工制作的特征或关于时间依赖性的特定假设,这限制了它们在实际数据集中捕获复杂事件模式的能力。最近的技术进步,如神经TPP,利用深度学习的表示能力,克服了其中一些限制,但许多仍需要从头开始进行广泛的特定任务训练。
AIGC 先锋科技
2024-11-04
900
EyeCLIP:用于多模态眼科图像分析的视觉语言基础模型 !
眼科疾病如青光眼、黄斑变性、糖尿病视网膜病变等对全球视力健康构成了重大威胁,常常导致视力减弱甚至失明。[1]然而,由于医疗资源短缺,特别是服务不足的地区和发展中国家,及时的诊断和治疗仍然是一个关键的挑战。[2; 3]这种资源配置的不公平性使得眼科疾病的早期检测和干预尤其困难,从而进一步加重了这些疾病的负担。
AIGC 先锋科技
2024-11-01
1620
华东师范 & 蚂蚁集团提出 E2LLM | 嵌入式扩展 LLM 大语言模型,用于长篇理解和推理 !
理解并推理长序列对于大语言模型(LLMs)至关重要,尤其是在像多轮对话、代码生成、多文本文档总结和问答等任务中。这些任务通常需要处理成千或甚至数百万个 Token 以确保连贯性和准确性。另一方面,为了提高LLM的性能,一些能有效促使LLM激活特定领域知识的技术,例如思路推理、上下文学习和检索相关文档或历史对话等,也在推动长序列长度的需求。
AIGC 先锋科技
2024-10-31
1190
LLM-Mixer 用于时间序列预测的LLMs中的多尺度混合,性能SOTA !
时间序列预测在众多领域中具有重要意义,包括金融、能源管理(马丁等,2010年)、医疗保健、气候科学(穆德,2019年)和工业运营(王等,2020年)。传统的预测模型,如自回归整合移动平均(ARIMA)(盒等,2015年)和指数平滑技术(海曼,2018年),广泛用于简单的预测任务。然而,这些模型假设平稳性和线性,这限制了它们在应用于复杂、非线性和多变量时间序列时的有效性(陈等,2015年)。深度学习的出现极大地推动了时间序列预测的发展。卷积神经网络(王等,2023年;唐等,2020年;基尔西克和卡加利·约尔库,2022年)被用于捕捉时间模式,而循环神经网络(萨米-纳米尼等,2019年;张等,2019年;卡米等,2019年)擅长建模时间状态转换。然而,卷积神经网络和循环神经网络在捕捉长期依赖性方面存在局限性。最近,Transformer结构(瓦萨万尼等,2017年)在处理局部和长期依赖性方面表现出强大的能力,使其适用于时间序列预测。
AIGC 先锋科技
2024-10-30
850
超越GPT-4,新方法在事实核查数据集上取得显著成效 !
可解释的事实验证是现代自动化事实核查的关键。最近的事实核查数据集通常包含标注的说明以突出其重要性。然而,关于可解释事实核查方法的研究主要集中在文本摘要上,在这种情况下,作为摘要的解释并不能代表实际世界的事实核查解释,因为它们没有比较主张和证据之间的差异来得出结论。
AIGC 先锋科技
2024-10-29
1350
视觉语言模型能否取代人类标注?
高质量标注数据被认为是深度学习进步的关键因素。然而,手动数据标注在成本和伦理方面存在显著挑战[5]。大型语言模型(LLMs)的最新发展激发了将其应用于文本数据集标注和生成的巨大兴趣。与此同时,对视觉语言模型(VLMs)[19]在处理无标签图像数据的能力的研究还很少。以前的研究已经证实,VLMs可以在原始图像数据上创建各种类型的标注。然而,评估其标注质量和成本效益的全面评估是评估它们能否替代手动标注潜力的必要条件。
AIGC 先锋科技
2024-10-29
1110
SMU/NUS/复旦/南洋理工提出简单而有趣的解决方案 , LLM 大型语言模型中的逆向建模 !
近年来,许多自然语言处理任务(NLP)和超出NLP范畴的能力得到了令人瞩目的表现。这些能力主要归因于学习涵盖了通用世界知识的广泛语料库。这些语料库是人类社会创造的,通常表现出人类的偏见,包括固有的向前看的认知,例如,在大多数情况下,大学数学数据集(Mitra等人,2024)中,原因可能先于结果和解决方案可以从给定的信息中推导出来。
AIGC 先锋科技
2024-10-29
1160
GUIDE:通过注意力分数优化LLMs指令对齐的简单有效方法 !
大型语言模型(LLMs)是目前大多数自然语言处理(NLP)任务的最新技术。尽管取得了成功,但预训练的LLM有时难以准确理解不同用户指令,可能生成与人类预期不符的输出。此外,LLM可能产生偏见或虚构的事实,这可能限制其实际应用价值。
AIGC 先锋科技
2024-10-25
980
多模态 LLM 中的跳过计算 ,通过跳过整个块、FFN层甚至单个神经元,可以实现计算的巨大减少 !
大型语言模型(LLMs)是人类达到智能水平的重要一步。这些模型能够在几乎所有人类可以完成任何文本任务上达到合理的分数。
AIGC 先锋科技
2024-10-25
1320
华东师范 & 复大提出 MindScope 通过多 Agent 系统探索大型语言模型中的认知偏差 !
最近的研究揭示了在LLM(大规模语言模型)中逐步出现类人的认知偏差。认知偏差代表在信息处理和决策过程中存在的系统错误[10],这为LLM基础应用带来了不可预见的风险。在金融领域,认知偏差可能表现为过分强调特定市场趋势或无法充分反映风险,导致投资决策不 optimal。
AIGC 先锋科技
2024-10-23
1090
LLM-包装 黑盒语义感知视图语言基础模型的适应 !
视觉语言模型(VLMs)是 [3] 类基础模型,在大量多样化的任务和数据集 上进行了训练,表现出解决各种开放词汇任务的能力,例如图像描述生成 [18, 39],视觉问答或文本图像检索 的出色能力。最近的研究也取得了成功,在各种目标本地化问题上取得了成功,包括目标检测和语义分割 [9, 38, 39]。
AIGC 先锋科技
2024-10-22
1060
浙大开源 FP-VEC,高效向量加法的指纹大型语言模型 !
大型语言模型(LLMs)在人工智能的各个领域中广泛应用。然而,从头开始训练它们需要巨大的计算资源,使它们的参数变得至关重要。
AIGC 先锋科技
2024-10-22
710
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档