暂无搜索历史
尽管多模态大模型已广泛应用于各个领域,但计算机到底是如何识别一只猫的?最近阅读了一篇文章(https://www.quantamagazine.org/how-...
最近在工作中遇到一些开发,很多人觉得实现 strlen 是一件很简单的事情,很快写出如下代码:
上周总结了《Google Prompt Engineering》知识卡片,白皮书的原始的翻译来了。
虽然一直在开发中使用 JSON 解析,但是如何高效的从 0 实现一个 JSON 解析,一直还未尝试,花了几个周末的时间用 golang 实现 sjson。 gi...
继续上一篇《Linux高性能网络编程十谈|C++11实现22种高并发模型》,大家对于 C++ 实现各种 Server 比较感兴趣,于是我把工作这些年接触的高性能...
想起很久之前拖更的一篇关于《Linux高性能网络编程十谈》结尾的博客,于是周末继续撸代码,整理这篇用 C++11 实现 22 种高并发模型。
为了探索和改进 AI 工具在编程方面的体验,同时也想验证一些 AI 的边界,于是又想到了尝试从 0 实现高性能JSON解析器,说干就干。 开始以为比较简单,不会...
去年的这个时候一直在探索如何用 AI 实现编程语言,当时 Agent 和工具链还不够齐全,所以尝试一段时间就断更了,有兴趣的可以再回忆这两篇用 Prompt 实...
去年有一段时间对 Rust 特别感兴趣,不过由于时间忙,学习了一段时间但是没有使用场景就放弃了,最近这一个月又在回顾今年的目标,其中一点是重新学习一门新的语言,...
MCP(Model Context Protocol,模型上下文协议) ,2024年11月底,由 Anthropic 推出的一种开放标准,旨在统一大型语言模型(...
LanceDB是一个开源的用 Rust 实现的向量数据库(https://github.com/lancedb/lancedb),它的主要特点是:
前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1...
最近,DeepSeek-R1的发布为国产大模型争光了(太强了),不过 GRPO 算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取...
最近在看《黄仁勋:英伟达之芯》,这本书讲述了英伟达是如何一步一步优化GPU,感觉创业不易,不过本文为了让大家更好了解GPU,所以简单汇总了一些知识点。
最近在看一篇github上大佬的文章,从0开始训练llama3,觉得对于《从0开发大模型》有点帮助,于是翻译一下,发现其中很多内容当前系列文章的知识点相似。 原...
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是1-3天的内容介绍。
无论是在机器学习,深度学习还是人工智能中,我们都在寻找一种模拟人脑的机制,注意力机制源于人脑,比如当我们欣赏一本书的时候,当我们对某个知识点感兴趣的时候,会映像...
上一篇完成DPO的训练,但是模型的输出效果不好,因此在找原因,于是将理论重新过一遍,以发现每个环节需要优化的地方,本文就是理论知识:《Transformer模型...
Rafailov等人在2023年发表了一篇论文《Direct Preference Optimization: Your Language Model is S...
继续《从0开发大模型》系列文章,上一篇用全量数据做微调,训练时间太长,参数比较大,但是有一种高效的微调方式LoRA。
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市