事件概述
微软在一篇论文中公布了OpenAI及Claude3.5 Sonnet等模型的参数,虽有免责声明称数字是估计的,但仍引发争议。
微软并非首次出现此类情况,23年10月曾曝出GPT-3.5-Turbo模型的20B参数后又删除。
论文详情
论文介绍了与医学相关的benchmark——MEDEC,于12月26日发布,年后引发关注。
MEDEC有识别并发现临床笔记中的错误以及予以改正两个任务,数据集包含3848份临床文本。
参数泄露发生在实验环节,研究结论是Claude 3.5 Sonnet在错误标志检测方面表现优于其他LLM方法。
网友关注点
若Claude 3.5 Sonnet比GPT-4o小,Anthropic团队或有技术优势。
对GPT-4o-mini只有8B存疑,有人根据推理成本算得该数字(指MoE模型的激活参数)。
微软在一篇关于医学领域基准测试的论文中意外泄露了OpenAI及其他模型的参数信息,引发了广泛讨论。这篇论文名为《MEDEC:临床记录中医疗差错检测与纠正的基准》,由微软健康与生命科学人工智能部门和华盛顿大学生物医学与健康信息学系共同完成,于2024年12月26日发布。
论文中提到的参数包括GPT-4o的约200B、GPT-4o-mini的约8B、Claude 3.5 Sonnet的约175B等,这些数字虽然声明为估计值,但仍引起了业内的广泛关注。此次泄露并非微软首次涉及此类事件,早在2023年10月,微软曾在一篇论文中披露了GPT-3.5-Turbo的20B参数,但后来删除了这一信息。
MEDEC基准测试旨在评估大型语言模型(LLM)在识别和纠正临床笔记中的错误方面的能力,数据集包含3848份临床文本,涵盖诊断、管理、治疗、药物治疗和致病因子等五种错误类型。研究结果显示,Claude 3.5 Sonnet在错误标志检测方面的表现优于其他LLM方法,得分为70.16,而o1-mini在错误标记检测方面排名第二。
关于GPT-4o-mini仅有8B参数的说法引发了争议,有网友质疑这一数字是否准确,并推测其可能是一个采用专家模型(MoE)架构的模型,激活参数量可能远超表面数据。此外,如果Claude 3.5 Sonnet的参数确实小于GPT-4o,那么Anthropic团队可能会被认为在技术上具有优势。
尽管论文声明这些参数是估计值,但外界对这些泄露的信息仍充满关注,认为这可能影响技术竞争和行业格局。
微软和华盛顿大学生物医学与健康信息学系共同完成的《MEDEC:临床记录中医疗差错检测与纠正的基准》论文详细内容如下:
论文标题
MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes
发表日期
2024年
作者
Ben Abacha et al.
文章类型
论文
摘要
本文介绍了一个名为MEDEC的基准测试,用于评估大型语言模型(LLMs)在临床笔记中检测和更正医疗错误的能力。MEDEC是首个公开可用的基准,涵盖了诊断、管理、治疗、药物疗法和致病菌五个类型的错误。该基准测试包含3,848篇临床文本,包括来自三个美国医院系统的488篇未被任何LLM见过的临床笔记。MEDEC数据集已被用于MEDIQA-CORR共享任务,以评估17个参与系统的性能。本文描述了数据创建方法,并对近期的LLMs(如o1-preview、GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Flash)进行了评估,以检测和更正需要医疗知识和推理能力的医疗错误。此外,还进行了一项比较研究,由两名医生在MEDEC测试集上执行相同任务,结果显示MEDEC是一个足够具有挑战性的基准,可以评估模型验证现有或生成的笔记并更正医疗错误的能力。尽管近期的LLMs在错误检测和更正方面表现出色,但在这些任务中仍不及医生表现。文章讨论了这一差距背后的因素、实验的见解、当前评估指标的局限性,并分享了未来研究的潜在方向。
研究背景
根据最新的调查显示,在接受临床笔记阅读的患者中,约五分之一的人发现了错误,且高达40%认为这些错误过于严重,这无疑让人不安。随着AI在医疗中的应用日益广泛,如何确保其输出的内容准确无误也显得尤为重要。
数据集描述
MEDEC包含3,848份临床文本,其中488份来自美国三家医院系统,这些文本此前未被任何LLM见过。该数据集涵盖了五种类型的错误:诊断、管理、治疗、药物疗法和致病因子。
模型评估
研究中,评估了包括o1-preview、GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Flash在内的最新LLMs,以检测和修正需要医学知识和推理能力的错误。此外,还进行了一项对比研究,两名医生在MEDEC测试集中完成了相同任务。结果显示,尽管LLMs在错误检测和修正方面表现良好,但在这些任务中仍被医生超越。
结论与讨论
尽管近期的LLMs在错误检测和更正方面表现出色,但在这些任务中仍不及医生表现。文章讨论了导致这一差距的潜在因素、实验中的见解、当前评价指标的限制,并为未来研究提供了方向。
参考文献
[1] MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes, 2024.
[2] 微软华盛顿大学医疗论文意外曝光OpenAI模型参数, 2025年01月02日.
[3] 微软论文揭示OpenAI模型参数:GPT-4o与GPT-4竟如此不同!AI在医疗领域的应用与挑战, 2025年01月02日.
[4] MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes, 2024.
Claude 3.5 Sonnet模型在错误标志检测方面的具体表现和评估方法是什么?
Claude 3.5 Sonnet模型在错误标志检测方面的具体表现和评估方法如下:
错误标志检测的表现:
Claude 3.5 Sonnet在医学相关的benchmark——MEDEC中表现优异,该benchmark旨在识别并改正临床笔记中的错误。研究结果显示,Claude 3.5 Sonnet在错误标志检测方面的得分为70.16,优于其他大型语言模型(LLM)方法。
评估方法:
在MEDEC benchmark中,Claude 3.5 Sonnet通过自然语言描述的需求,修复错误或增加功能到开源代码库中。评估测试了模型根据自然语言描述的需求,修复错误或增加功能到开源代码库中的能力。
具体的评估方法包括提供错误消息和用户任务描述,让模型进行初步评估,生成预测,审查代码,验证预测,并最终识别根本原因并生成调试指令。
总结来说,Claude 3.5 Sonnet在错误标志检测方面表现出色,特别是在医学领域的应用中,其得分高于其他模型。
GPT-4o和GPT-4o-mini模型的技术细节和参数估计方法有哪些?
GPT-4o和GPT-4o-mini模型的技术细节和参数估计方法如下:
GPT-4o模型的技术细节和参数估计方法
参数数量:
GPT-4o的参数数量约为200亿。
模型架构:
基于Transformer架构,采用自注意力机制(Self-Attention)和前馈神经网络(Feed-Forward Neural Network)。
自注意力机制允许模型在处理序列数据时,考虑到序列中所有位置的信息,从而捕捉长距离依赖关系。
多头注意力通过并行计算多个注意力头,增强模型对不同特征的捕捉能力。
层归一化在每个子层输出后进行归一化处理,加速模型训练并提高稳定性。
残差连接通过将输入与输出相加,避免梯度消失问题,提高模型的训练效率。
训练数据:
使用了高质量的多源数据集进行训练。
上下文窗口:
支持128k令牌的上下文窗口。
性能指标:
在多个基准测试中表现出色,例如BLEU分数在机器翻译任务中达到了45.3,F1分数在问答任务中超过了85%。
GPT-4o-mini模型的技术细节和参数估计方法
参数数量:
GPT-4o-mini的参数数量约为8亿。
模型架构:
基于GPT-4o的架构改进而来,优化了计算效率和资源使用。
依然基于Transformer架构,采用自注意力机制、多头注意力、层归一化和残差连接。
训练数据:
使用了更为精细化的训练数据集,优化了模型的学习效果,增强了其在多种任务中的表现。
上下文窗口:
虽然比GPT-4o小,但仍能满足大多数应用的需求。
性能指标:
在学术基准测试中表现出色,特别是在文本智能和多模态推理方面。
在涉及文本和视觉的推理任务上优于其他小型模型,在MMLU基准测试中的得分为82.0%。
在数学推理和编码任务中表现出色,优于市场上之前的小型模型。
功能亮点:
支持文本和视觉输入输出,未来将扩展到图像、视频和音频。
具有128K令牌的上下文窗口,每个请求支持多达16K输出令牌。
知识截止日期为2023年10月,能够处理非英语文本。
内置安全措施,确保模型行为符合政策。
支持链式或并行化多个模型调用。
成本效益:
每百万输入令牌15美分,每百万输出令牌60美分,显著低于之前的前沿模型。
适合需要高效、低成本智能解决方案的企业和技术开发者。
通过以上分析,可以看出GPT-4o和GPT-4o-mini在参数数量、模型架构、训练数据、上下文窗口、性能指标和功能亮点等方面都有显著的区别。
Anthropic团队在开发Claude 3.5 Sonnet模型时采用了哪些技术优势?
Anthropic团队在开发Claude 3.5 Sonnet模型时采用了多种技术优势,这些优势使其在多个方面超越了前代模型和竞争对手。以下是主要的技术优势:
增强的推理和解决问题能力:
Claude 3.5 Sonnet在推理、数学技能、常识和编码能力方面表现出色,特别是在内部编码评估中解决了64%的问题,而之前的模型问题解决率为38%。
该模型在MMLU(本科水平知识)、GSM8K(小学数学)和HumanEval(编程)等基准测试中与GPT-4o和Gemini 1.5 Pro等竞争对手模型相匹敌或表现更优。
多模态能力:
Claude 3.5 Sonnet是一款多模态AI模型,能够处理图像输入,并在一系列视觉理解测试中表现出色。例如,当展示一只戴着足球头盔的兔子的图片时,模型能识别并描述该场景。
高性能和低成本:
Claude 3.5 Sonnet的运行速度是Claude 3 Opus的两倍,价格也更便宜,每百万输入令牌的成本为3美元,每百万输出令牌的成本为15美元。
模型的输入代币成本为每百万代币3美元,输出代币成本为每百万代币15美元,相比GPT-4具有明显成本优势。
动态工作区功能:
Claude 3.5 Sonnet引入了动态工作区功能,用户可在侧窗口实时编辑和查看结果,提升了交互体验和工作效率。
代码生成和数据可视化:
在代码生成方面,Sonnet能即时生成对应编程语言的代码,显著提高开发效率。在数据可视化和图表解读方面,Sonnet在OCR任务中表现出色,适用于处理复杂数据集和数据分析。
计算机使用功能:
Claude 3.5 Sonnet升级版引入了“Computer use”功能,允许用户通过API控制Claude使用计算机,包括鼠标、键盘操作,如查看屏幕内容、移动鼠标、点击按钮、输入文字等操作。这一功能极大地扩展了该模型的应用场景和灵活性。
广泛的可用性和集成:
Claude 3.5 Sonnet可以通过多个平台访问,包括Claude.ai 网站、Claude iOS应用、Anthropic API以及Amazon Bedrock和Google Cloud的Vertex AI。
创新的Artifacts功能:
Anthropic推出了名为“Artifacts”的新功能,允许用户在专用窗口中与Claude生成的内容进行交互,如代码、文本和网页设计,这被视为将Claude.ai 发展为团队协作工作空间的一步。
关于模型参数泄露事件,OpenAI和Anthropic有何回应或声明?
根据提供的信息,OpenAI和Anthropic在模型参数泄露事件中的回应如下:
OpenAI:
OpenAI对o1模型的泄露事件做出了回应,表示正在为o1模型准备有限的外部访问,并且已经修复了过程中出现的问题。预计在未来几周内可能会正式发布完整版本。
另外,有报道指出OpenAI尚未确认泄露事件,但表示已解决外部访问问题,并预计将在未来几周内发布正式版本。
在另一篇报道中,OpenAI的创始人奥特曼在社交媒体上宣传了o2模型,暗示其可能在未来一周内正式上线。
Anthropic:
目前没有直接证据显示Anthropic对模型参数泄露事件的具体回应。然而,Anthropic在2024年11月27日发布了一篇新闻,介绍了其发布的AI模型统一协议(Model Model Protocol),旨在提升AI工具与模型数据库的标准化对接。这表明Anthropic在关注AI模型的管理和标准化方面采取了积极措施。
综上所述,OpenAI对模型参数泄露事件做出了具体的回应和修复措施,并计划在未来几周内发布完整版本。
领取专属 10元无门槛券
私享最新 技术干货