
🍹 Insight Daily 🪺
Hi,这里是Aitrainee,欢迎阅读本期新文章。
我不仅在氛围编码,还在氛围写作。
氛围编码还能理解,氛围写作就是……老读者知道,我会用语音输入的方式码字。
很多人问我桌面右下角那个悬浮窗是什么,我说是讯飞语音输入

用了两年半,挺好。
直到上个月,我试了几款AI输入法。
才发现,原来还可以更好。
普通语音输入法使用上一代语音识别技术的输入法,一般是免费的,例如:百度,谷歌,搜狗,讯飞,苹果语音输入法;macOS,Windows 自带的听写功能。
普通语音输入法 中英混讲识别率都很低,只有听写,不能凭上下文推断润色,不能去除口头禅(这个,那个,嗯,啊,是吧,然后)。。
效率受到影响,可能需要二次修改。直接发送可能出现错字和识别错误,导致社交场合尴尬
假设我们录入一段音频,普通输入法是这样的:

换用 AI 输入法是这样的:
“语音输入时,语气和逻辑是按你说的就记录,不会为你做调整或纠错。它不会纠错,只是记录;有时会把一个字重复说出,导致错字和重复现象出现”
AI 语音输入法会使用 gpt-4o-transcribe 等最新原生多模态听写模型,他是需要付费的;不过后面我们会介绍免费的,并且可以支持自定义 API 填入。
不过话说回来,最近豆包输入法好像是在进行内测了(安卓、IOS),大家对豆包语音识别的效果似乎挺满意的,可以期待一波。内测的申请链接,我放在文末了。


其实这些 ai 输入法的话,我们还得分一下:
mac、ios、安卓、windows
因为同一种输入法,它可能没有覆盖所有的系统,所以得按照不同的系统来找一个尽可能好的 ai 输入法。
ios、mac,请使用 Spokenly,它除了性能是第一梯队的以外,它还支持自定义 api key,功能强大。
综合网友各种评论和自己的体验来说。Spokenly这玩意儿是目前Top1。
可惜的是他这里没有 windows 和安卓。

下面这个你可以放 ai 提示,比如我这里告诉他让他对我输入的语言进行润色并去除一些不必要的东西,你可以按照自己的意思来进行修改,比如你也可以让他尽可能保持原来的语气,但把那些错误什么的都去掉,调整一下语序逻辑。

调整语序逻辑还是比较有必要的,因为你自己用口语说话的话,那个逻辑可能还需要修整。
我们再来看 ai 提示,它其实还有一个高级设置。在这里面你可以编写这个系统提示。以及你可以调整它的推理强度,还有温度。推理强度搞得太高了,它就会慢许多。

传统输入法虽然可能不好,但是他速度还是挺快的。 Ai 输入法会比传统的慢一些。
来看看他的听写模型。本地模型,可以直接下载下来放在本地跑。而其中那个需要 api 的,你也可以看到一些可以免费接入的 api,比如 Groq api

最强听写模型是 4o-transcribe 或 elevenlabs-scribe。
并且他既然把这个做成产品了,你也可以浏览一下,知道哪些主流的语音转文字的模型。大家可能会把这些语音转文字的模型使用在其他的领域做产品,那么用这个来调研一下也是挺好的。
他这个听写模型的面板除了本地还有在线、快速、准确,分门别类的区分好了。能快速帮你了解这个模型准确度怎么样,速度怎么样,是不是支持多语言模型大小是不是实时的,哪些开源,哪些闭源。

他这里还可以帮你转录文件:

Spokenly 你可以直接在应用商店搜索下载即可,它国区的也有提供,不过按理来说,它使用了美区的这些 ai 模型,可能以后会下架,那你以后就得用美区的账号下载了。
除了这个 Ai 语音输入法 以外,其实还有一个叫做 SuperWhisper 的
SuperWhisper 有 windows 版本,但是和 mac 相比差了许多。SuperWhisper 不开会员,他也有免费模型可以使用。一般水准。不过相比传统的输入法,也算是一个ai输入法吧。
所以我这里介绍另外一个适合在 Windows 下使用的语音输入法:LazyTyper,他支持你自定义 api key 的。
这个功能上就比上面那个简单多了。你可以使用免费的 Groq api,下面也是有 openai 的两个 Whisper v3 模型。一种是高质量,一个是速度快的。
LazyTyper 名字起的挺好的:懒惰打字员,
地址:https://lazytyper.com/。
他里面还有豆包模型可选,需要配字节的火山引擎。具体的配置方式也挺简单,我想你也看到了,它下面每一种模型都提供了教程,你自己查看一下即可。

你还可以在这里设置一些过滤的词汇,比如一些语气词。

这个输入法的话是没有那些提示词设置的,这倒是一个不好的地方。另外它也并非开源的,也不能进一步让我们自己去开发一下。
作为一款独立开发的产品,它的推广也有意思。因为我直接后来在谷歌浏览器上搜索,作者做了官网,然后分别在 github、v2ex、reddit 这些地方都宣传了


这是他介绍软件的方式

我最开始研究电脑端是采用 Deep Research,然后搜到了他。。你可能知道:GEO。

GEO @MeMe

关于 GEO 要不要做,其实也有很多不同的看法:

安卓的话,有那个微信输入法可以用,然后我们可以狠狠期待一波豆包。同时也希望尽快上电脑端。
https://wj.toutiao.com/q/366529/8g9c9q6D/1f79/#/

不过话说回来,由于讯飞用的时间比较久。我现在基本上改变不了这个动作了 —— 总是习惯把鼠标放在右边这个悬浮窗的位置,缺了它,似乎总觉得少了点什么。

讯飞手机端现在也有了AI预测功能,不过讯飞输入法悬浮窗有个毛病:开头或结尾的一两个词经常会漏录。
使用AI输入法后,你可以直接用嘴来表达想法。我感觉我那张因为长期打字而"退化"的嘴巴又长回来了。
虽然理论上大脑思考速度远超语速,但在即兴表达时,我们需要边想边说、组织语言,这时语速反而可能"超前"于语言组织能力——这也许是为什么我们需要"嗯""啊""就是"这些口头禅来做缓冲。
但无论如何,语音输入(120-150词/分钟)的效率,都远超打字(40-60词/分钟)。再加上AI的润色加持,这可能是与大模型交互最高效的方式。
不管是编码、写作,还是对话,都可以很氛围。
AI输入法
它可能不会让你变成更好的作家
但至少,能让你的表达,更接近你的思考。
这便够了。