首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

一文让你了解AI产品的测试 评价人工智能算法模型的几个重要指标

如何测试人工智能产品越来越受到广大测试工程师的关注,由于人工智能的测试预言(Test Oracle)不是像普通软件产品那么明确,到目前为止,基于大数据的第四代人工智能产品的测试,主要集中在“对大数据测试”“白盒测试”“基于样本分析算法的优劣”以及“对最终产品的验收测试”。“对大数据测试”主要针对数据阶段验证、对数据计算验证和对输出阶段验证;“白盒测试”主要考虑神经元覆盖(Neuron Coverage)、阈值覆盖率(Threshold Coverage)、符号变更率(Sign Change Coverage)、值变更覆盖率(Value Change Coverage)、符号-符号覆盖率(Sign-SignCoverage)和层覆盖(LayerCoverage)这六个指标;“对最终产品的验收测试”可以采用对传统软件验收测试的方法,基于业务来进行测试,比如对于人脸识别系统,是否可以在各个人脸角度变化,光线等条件下正确识别人脸。本文重点讨论的是“基于样本分析算法的优劣”。

02

小朋友学C语言(43):浮点数的深入分析

IEEE二进制浮点数算术标准(IEEE 754)是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用。这个标准定义了表示浮点数的格式(包括负零-0)与反常值(denormal number)),一些特殊数值(无穷∞与非数值NaN),以及这些数值的“浮点数运算符”。 IEEE 754规定了四种表示浮点数值的方式:单精确度(32位)、双精确度(64位)、延伸单精确度(43比特以上,很少使用)与延伸双精确度(79比特以上,通常以80位实现)。只有32位模式有强制要求,其他都是选择性的。大部分编程语言都有提供IEEE浮点数格式与算术,但有些将其列为非必需的。例如,IEEE 754问世之前就有的C语言,现在有包括IEEE算术,但不算作强制要求 C语言的float通常是指IEEE单精确度,而double是指双精确度。

03

每日论文速递 | DeepMind提出SAFE,用LLM Agent作为事实评估器

摘要:大语言模型(LLM)在回答开放式话题的事实搜索提示时,经常会生成包含事实错误的内容。为了对模型在开放域中的长式事实性进行基准测试,我们首先使用 GPT-4 生成了 LongFact,这是一个由跨越 38 个主题的数千个问题组成的提示集。然后,我们提出可以通过一种我们称之为 "搜索增强事实性评估器"(Search-Augmented Factuality Evaluator,SAFE)的方法,将 LLM 代理用作长式事实性的自动评估器。SAFE 利用 LLM 将长式回复分解为一组单独的事实,并通过一个多步骤推理过程来评估每个事实的准确性,该过程包括向谷歌搜索发送搜索查询,并确定搜索结果是否支持某个事实。此外,我们还建议将 F1 分数扩展为长表事实性的综合指标。为此,我们平衡了回复中支持事实的百分比(精确度)和所提供事实相对于代表用户首选回复长度的超参数的百分比(召回率)。根据经验,我们证明了 LLM 代理可以实现超人的评级性能--在一组约 16k 的单个事实上,SAFE 与众包人类注释者的一致率为 72%,而在 100 个分歧案例的随机子集上,SAFE 的胜率为 76%。同时,SAFE 的成本比人类注释者低 20 多倍。我们还在 LongFact 上对四个模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 个语言模型进行了基准测试,发现较大的语言模型通常能获得更好的长格式事实性。LongFact、SAFE 和所有实验代码开源。

01

《碟中谍5》的科幻场景变为现实,银河水滴要用步态识别实现身份认证

不知道看过《碟中谍5》的朋友对其中一个场景是否还有印象:阿汤哥的搭档在破解了指纹解锁、三重物理旋转密码锁挑战后,迎来了“步态识别锁”。这项挑战无疑是对生物体的身体及步态进行360度无死角扫描,用来判断和识别进入者的身份。 作为压轴挑战,我们能够猜测出步态识别在身份认证方面是有一定的优势的。有资料显示,现有的生物特征包括生理特征及行为特征。生理特征包括人脸、指纹、DNA、虹膜以及静脉等等,行为特征包括语音、步态和笔迹等等,这些生物特征都具有普遍性、唯一性和稳定性,能够用于不同场景下的身份识别和认证。 尽管人脸

07
领券