温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
我们回家上节课内容啊,做了这个语音是吧,啵啵摸和一鸡科啵N啰,咱们点一下这块啊,收起这个面板。这样是纯纯AI交互web speech API的方式,网络语音编程接口,那么还有一种方式呢,就是远程模型调用,各有什么利弊呢?做成一个表格,首先是成本,这个免费,用这个远程使消耗token的这个本地快是吧,这个因为你是浏览器自动生成的嘛。这个就是取决于网速。准确率是中等,这个是非常高,因为模型是专业训练出来的。语言支持相对有限,然后这个远程调用呢,它就非常多了,远程模型就高度自定义,会有利弊,那就得选是吧,其选web speech API, 那么除了之外呢,还有web audio API, 还有什么什么类似的么?什么是web audio API呢?就是我们可以看一下,先看这边哈,12344个音,Do咪so do, 每个声音一个duration。
01:11
然后再生成。我们可以看一下对比web audio API是音频制作的频率更细。然后这个是语音制作场景不同的。有各种各样的API,比如说这个media device API摄像头的信息。然后录音的信息,然后流媒体的信息和实时通信的信息,那么图形方面就是用converse我们了解的,然后3D呢,有web gl, 增强现实,这些其实都是我们需要了解的,因为只有我们充分了解才能深入的去选型究竟使用什么,那就综合考虑我的CPU的开销,我的开发的难度。我的内存的消耗,我的网络的这种要求是必须连续呢,还是断断续续也可以的,会不会受到影响呢?还有大模型token的费用,以及这个如果我使用免费的生成工具,它的消耗时间很多很多东西,那这就是选型,就是架构,对吧?就是呃,我们以前说那个sa instruction set architecture指令及架构,那最开始选型计算机的选型指的就是这个选CPU指令集,选完了CPU指令集,然后你就有相应的。
02:37
这个开发方式最早不是咱们以前做过吗?机器打孔,卡片,然后是汇编,甚至有C语言,呃。今天我们开发也是,你是面向什么样的架构去开发,怎么样编译,对吧?但是今天环境可能更复杂,比如说网络的因素,还有刚才说到的各种开销,甚至大模型的token的这个费用都得考虑清楚。
03:00
那么我们现在呢,又涉及到一个选型问题,我们这个画板啊,记录他的曾经画的信息,我画过这个字儿,哎,我画过几次,我就要记录下来,那我怎么记录下来呢?用什么方式呢?有没有什么选项呢?我们下次再说o ez加枪。
我来说两句