暂无搜索历史
继续上一篇《Linux高性能网络编程十谈|C++11实现22种高并发模型》,大家对于 C++ 实现各种 Server 比较感兴趣,于是我把工作这些年接触的高性能...
想起很久之前拖更的一篇关于《Linux高性能网络编程十谈》结尾的博客,于是周末继续撸代码,整理这篇用 C++11 实现 22 种高并发模型。
为了探索和改进 AI 工具在编程方面的体验,同时也想验证一些 AI 的边界,于是又想到了尝试从 0 实现高性能JSON解析器,说干就干。 开始以为比较简单,不会...
去年的这个时候一直在探索如何用 AI 实现编程语言,当时 Agent 和工具链还不够齐全,所以尝试一段时间就断更了,有兴趣的可以再回忆这两篇用 Prompt 实...
去年有一段时间对 Rust 特别感兴趣,不过由于时间忙,学习了一段时间但是没有使用场景就放弃了,最近这一个月又在回顾今年的目标,其中一点是重新学习一门新的语言,...
MCP(Model Context Protocol,模型上下文协议) ,2024年11月底,由 Anthropic 推出的一种开放标准,旨在统一大型语言模型(...
LanceDB是一个开源的用 Rust 实现的向量数据库(https://github.com/lancedb/lancedb),它的主要特点是:
前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1...
最近,DeepSeek-R1的发布为国产大模型争光了(太强了),不过 GRPO 算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取...
最近在看《黄仁勋:英伟达之芯》,这本书讲述了英伟达是如何一步一步优化GPU,感觉创业不易,不过本文为了让大家更好了解GPU,所以简单汇总了一些知识点。
最近在看一篇github上大佬的文章,从0开始训练llama3,觉得对于《从0开发大模型》有点帮助,于是翻译一下,发现其中很多内容当前系列文章的知识点相似。 原...
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是1-3天的内容介绍。
无论是在机器学习,深度学习还是人工智能中,我们都在寻找一种模拟人脑的机制,注意力机制源于人脑,比如当我们欣赏一本书的时候,当我们对某个知识点感兴趣的时候,会映像...
上一篇完成DPO的训练,但是模型的输出效果不好,因此在找原因,于是将理论重新过一遍,以发现每个环节需要优化的地方,本文就是理论知识:《Transformer模型...
Rafailov等人在2023年发表了一篇论文《Direct Preference Optimization: Your Language Model is S...
继续《从0开发大模型》系列文章,上一篇用全量数据做微调,训练时间太长,参数比较大,但是有一种高效的微调方式LoRA。
继续写《从0开发大模型》系列文章,上一章主要数据数据预训练,让模型能学到句子接龙和部分语言理解能力,获取基座版本,但是用基座版本的模型的对话能力太弱了,需要用大...
继续写《从0开发大模型》系列文章,本文主要介绍预训练过程。 预训练是目的是让模型学习知识,需要将预处理的数据(《机器学习|从0开发大模型之数据预处理》)中生成的...
分布式系统中生成唯一ID在后台开发是经常遇到的架构设计,当然方案有很多,比如通过redis或者数据库实现自增。 但是如果依赖redis或者数据库,会导致单点问题...
十一期间开车到五六线线城市,发现高德地图的红绿灯读秒功能竟然依旧比较精准,之前在一二线城市了解地图的读秒是使用政府交通部门的数据,那五六线城市的数据应该是没那么...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市