前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI时代,英文为王?

AI时代,英文为王?

作者头像
御剑
发布2023-08-31 20:02:22
1720
发布2023-08-31 20:02:22
举报
文章被收录于专栏:微言码道微言码道

最近Meta开源了llama2,几乎引爆了整个AI行业.这可能意味着AI迈入了一个新的阶段,开源将会深度参与AI技术热潮中. 也意味着未来一切皆有可能.

这篇文章不是说llama2与AI开源的,而是我在查阅llama2的技术白皮书中, 发现了一个非常值得注意的现象. 就是当前主流的前沿AI的训练语言中,以英文为主. 而其它语言,包括中文在内,占有的份额少的可怜.

这意味着什么呢? 如果AI时代不可避免的来临了,按照当前这样的趋势, 英文将成为AI中的绝对语言,包括中文在内的其它语言都不可避免的重要性大大降低.

数据

在Llama 2的技术白皮书中, 有一个地方引起发了我的注意,就是下面这个图:

可以非常容易的发现:

  • 训练Llama2的数据中,英语有近9成比重
  • 英语之外的其它语言比例约1成比重
  • 其中, 中文占0.13%

这个图引起了我的注意,我同时好奇另外两个主流的AI, ChatGPT与Claude AI在训练语言中,是个什么情况.所以我就GOOGLE查阅了一下.

ChatGPT

ChatGPT中文资料比重还不足千分之一,为0.09905%,而英文为92.64708%。

Claude AI

"Claude 2 was trained on more recent data — a mix of websites, licensed data sets from third parties and voluntarily-supplied user data from early 2023, roughly 10% of which is non-English "

虽然没有查到各语言的具体数据,但是从上面的描述中看出来,在Claude 2的训练数据中,英语同样是9成比重,而非英语语言中,总共才1成左右.

影响与后果

可能现在国内很多使用ChatGPT的人没有意识到这个问题, 因为ChatGPT同样支持中文, 使用起来似乎感觉“还不错”.

这就是值得忧虑的问题. 那你有没有想过一个问题, “比重不到0.1都不到中文有这样的效果,那9成比重的英语的效果又如何?”

很多使用ChatGPT的人没有使用过英文,也就意识不到中文与英语的差距. 且不说中文的很多问题, 就我个人使用来说,ChatGPT对英文明显理解更准确与到位, 我最近在做AI相关的工具时,也发现用英语来编写Prompt的效果会远远好于中文.

很显然,由于当前主流的AI都是美国公司开发的,不管是当前还是未来,理所当然的会以英语为主, 这个趋势不会改变. 长此以往,我认为的效果会是:

英语成为AI的主要语言

当然,各AI肯定会去支持其它语言,不会只用英语训练. 毕竟所有AI都是面向全球. 但是不可避免的, 最主要都会用英语去训练.

那理所当然的英语会成为AI的主要语言. 意味着用英语来与AI打交道,肯定会更好,更高效,更有价值.

比如,一个已经出现的事实能说明这个问题, 文心一格最开始发布时, 闹出了一些笑话, 对一些中文描述的理解几乎是直译为对应的英文,再生成一幅画. 结果令人啼笑皆非.

关注AI的可能都知道这个事. 具体我也不说了, 这就是由于训练数据来源于英语的一个小的表现而已.

其它语言成为附庸,发展面临困境

我对大模型语言的算法一无所知.

但我猜想, 模型与训练数据是相互促进的, 在英语为绝对语言的前提下, 大模型算法对英语的理解或效率会越来越好,越来越高. 根据马太效应的原理, 这会进一步促进大模型算法的发展, 而大模型的发展同样进一步深代AI时代对英语的依赖.

至于其它语言,自然就变成这个中的一个附加或附属, 慢慢的在AI中会变得无足轻重.

中文的困境

除非国内的大模型能有所突破,或迎头赶上, 否则AI时代的中文必然会面临困境.

结合现在互联时代中文问题,AI时代这个困境可能只会加深,表现在:

中文内容质量低下

好吧,虽然这个结论有些伤人,但我们很多人都能感受到互联网上中文内容的质量低下化这个趋势.

在上层的空话套话,叠加下层流量为导向的主导下的低质内容普遍化两个趋势的结合下, 中文内容在互联网上质量不高,远比不上英语. 还不说也不能说的普遍存在404的现象导致的很多好的内容不复存在.

大家都能感受到中文内容低下的趋势,事实上,我在使用GOOGLE时,很多时会自然的用英文去搜索,而不是中文. 至于国内的百度, 好吧, 我几乎很少使用,也就不评价了.

中文因为有14亿人的使用,及近五千年的文化沉淀(比如文言文,诗, 词等),使它独具魅力,但如果AI时代英文为主,中文未来的趋势不容乐观.

高质量中文训练数据的来源问题

要说国内的AI, 现在国内大模型有几十个了.令人眼花缭乱.

但事实上,这些模型当前和ChatGPT主流AI还是有差距, 被使用与关注度也非常少. 虽然我最近在做AI工具方面的工作,但关注的主要是ChatGPT, ClaudeAI以及最近开源的llama2这些.

我当然希望国内的大模型能发展的好,有突破. 但凭直觉我会认为现在国内的大模型仍然会有差距. 同时我也确实暂时没感知到周围有使用国内AI的这种氛围或趋势.

对于国内AI训练来说, 普遍面临的中文来源的问题在于

  • 缺少类似维斯百科这样的高质量免费公开的资料库
  • 前面说过,中文内容低下, 当然有好的内容,但问题是它属于少数,如何命中是个大问题.
  • 内容封闭性. 不同平台内容相互各不开放, 封闭在自己内部才能查阅, 甚至都搜索不到.

怎么办

好吧,宏大的东西我就不谈了,做为个体, 关注力所能及的才更重要.

做为个体,我的建议是:

学习英语

这是第一个建议, 接受现实吧. 不要说AI, 就是现在的互联网, 如果懂英文, 能更容易接触到高质量的内容, 查找东西更省时省力, 学习到的都是有更有价值的内容.

有人说AI时代不用学习英语,我认为这不会成为事实. 事实上,AI时代,可能英语的重要性不是降低了,而是加大了.

如果你从事的工作或感兴趣的东西前沿都在国外,那保持对英语的学习仍然非常重要. 比如我们程序员,还是要懂英语的.

坚持输出好的中文内容

如果你在输出中文内容. 比如像我这样, 会写一些文章,技术博客的. 或者你在写小说, 文学什么都好. ,一定要坚持输出好的中文内容这个原则.

当然,我知道流量非常重要,但现在中文互联网这种空话+标题党垃圾内容,过分关注流量导致的内容低下化,只是在竭泽而渔而已.

我们没有办法改变别人,但我们可以让自己做的更好, 所以输出好的内容就成为内容输出者该有的操守.

这也就是我坚持原创,只努力去写有价值的内容的原因.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-07-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微言码道 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据
  • 影响与后果
  • 中文的困境
  • 怎么办
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档