关于这篇论文,技术角度太复杂了,我们来通过一个日常使用中的问题来解释这个工作的重要性。
很多人用DeepSeek其实忽略了一点,那就是对话的长度是有限制的,有些人会在同一个对话栏里跟DeepSeek一直对话,直到不能继续。
出现这个现象的原因就在于Context(上下文),说白了就是现如今大模型的记忆力是有限的,它的记忆力长度其实是设定好的,根据DeepSeek的官方文档,R1的长度就是64K。
然后一个中文字符占0.6token。
64000/0.6 约等于 10.6万个中文字符。
一般来说一个单次对话不会超过10.6字。
但是,人类的记忆是可以跨越数十年的,90岁的时候都可以回忆起小时候的某个记忆片段。
大模型也是有记忆的,不知道大家在使用DeepSeek R1模式的时候有没有注意到它的「回忆和记忆」现象。
这是我首先问的DeepSeek的一件事,就是“吃了火锅拉肚子怎么办”,它回复的非常专业。
从原理到解决方法到后续的预防,它都提到了。
重要的事情在后面,就是我接着又问了DeepSeek一个问题
我今天打算做一个火鸡面当晚饭,怎么做好吃?
然后你看DeepSeek的思考过程,注意划红线的地方。
“首先,我得回想一下用户之前的对话历史。之前他提到吃了火锅后拉肚子,可能是因为太辣或者太油腻。所以现在他要做火鸡面,虽然火鸡面本身也是辣的,但可能需要考虑他的肠胃状况。不过这次他可能已经恢复好了,或者想继续挑战辣味。但作为回答者,我可能需要提醒他注意辣度,或者给出调整辣度的建议。 用户可能是一个喜欢辛辣食物的人,但之前因为吃火锅导致肠胃不适,所以在制作火鸡面时可能需要平衡辣度和肠胃的承受能力。或者他可能已经恢复,只是单纯想要美味的做法。 同时,提醒用户根据自身情况调整辣度,特别是考虑到之前拉肚子的情况,可能需要适量减少辣酱的使用或者搭配解辣的食物。”
你发现没,它会把你之前的情况考虑的得非常周到,几乎处处在考虑你的身体情况,这就是「上下文」带来的记忆能力。
就跟人的记忆一样,一个人的记忆会造成长期的影响。如果你不小心胳膊骨折,那你在以后的所有相关事情上都会特别注意。
但你在DeepSeek新开一个对话框的话,你会发现同样的火鸡面做法问题,它就是单纯的给你一个做法,它并不知道你拉肚子了。
记忆被截断了。
新开一个对话框就是一段全新的记忆,但实际上人不是。
而AI想要进化到AGI,其中一个特性就应该是尽可能长的记忆,就跟人一样,不一定将所有的细节都记住,而是将很多事情的某个片段或者重要信息记住,然后在需要的时候想起这个点。
然后从点到线,从线到面的复现整个过程。
而DeepSeek的新论文,说白了就说让记忆提取的成本变低,只需要原本1/10的成本就可以做到性能相似的结果,这也给增大记忆留下了更多的可能性。
甚至你会发现NSA这个工作是暗合人类记忆能力背后原理的。
人类会将重要事情记得非常牢,而别的事情可能会通过几件重要的事情连带地提取出来。
而DeepSeek的工作也类似,也是将重要的事情提取出来,然后其他的暂时沉寂下去,这样继续优化下去。
未来的AI大模型一定不需要那么多的对话框,只需要一个对话框,一份记忆,你的AI会跟你在长久的对话中获得不断的提升,这种提升不一定是智力上的,而是心灵的契合程度。
领取专属 10元无门槛券
私享最新 技术干货