首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

人机对话系统回复质量的自动化评估

对话系统 人机对话系统分为任务型对话和非任务型对话系统。对于任务型对话系统的评价,一般采用任务完成的程度来进行评估,例如“导购”机器人,主要看用户是否点击“推荐商品”等来评估。非任务型对话系统,一般是闲聊系统,若是多轮对话,一般使用用户与机器之间进行对话的轮数来评估系统优劣。但是若是单轮对话呢,如何评价机器给出回复的好坏?对于给定一句话的回复,不同的人可以给出不同的答案,只要自圆其说即可,如此开放的回复空间,评价回复的好坏实属困难。 而目前并没有什么公认的评价指标可以更好地对对话系统的回复进行评价。很多论文

04

基于OpenCompass的大模型评测实践

随着人工智能技术的快速发展, 大规模预训练自然语言模型成为了研究热点和关注焦点。OpenAI于2018年提出了第一代GPT模型,开辟了自然语言模型生成式预训练的路线。沿着这条路线,随后又陆续发布了GPT-2和GPT-3模型。与此同时,谷歌也探索了不同的大规模预训练模型方案,例如如T5, Flan等。OpenAI在2022年11月发布ChatGPT,展示了强大的问答能力,逻辑推理能力和内容创作能力,将模型提升到了实用水平,改变人们对大模型能力的认知。在2023年4月,OpenAI发布了新升级的GPT-4模型,通过引入多模态能力,进一步拓展了大语言模型的能力边界,朝着通用人工智能更进一步。ChatGPT和GPT-4推出之后,微软凭借强大的产品化能力迅速将其集成进搜索引擎和Office办公套件中,形成了New Bing和 Office Copilot等产品。谷歌也迅速上线了基于自家大语言模型PaLM和PaLM-2的Bard,与OpenAI和微软展开正面竞争。国内的多家企业和研究机构也在开展大模型的技术研发,百度,阿里,华为,商汤,讯飞等都发布了各自的国产语言大模型,清华,复旦等高校也相继发布了GLM, MOSS等模型。

01
领券