暂无搜索历史
https://github.com/google-gemini/gemini-cli
作者在 H·G·威尔斯的《时间机器》中插入了几段荒谬对话,测试文本长达 1 万词元(约覆盖小说前 5 章内容),并附带简短系统提示要求大模型定位这些荒谬对话并复...
Reddit 看到一个帖子,探讨如何极限情况下运行 DeepSeek-R1-0528
看一下我高频使用的,在2*4090显卡上部署的 DeepSeek-R1-0528-Qwen-8B 性能如何
长期跟踪关注统计学、机器学习算法、深度学习、人工智能、大模型技术与行业发展动态,日更精选技术文章。回复机器学习有惊喜资料。
最近在看文档处理方面的模型和工具,准备写个新系列,聚焦大模型文档处理,记录模型特性与功能,本地部署,实际测试。
大模型有多火,自不必多说,但是想发论文完全没头绪?那你一定不要错过这6个,备受顶会青睐的方向!
MiniMax-M1 采用了创新的混合专家模型(MoE)架构结合闪电注意力机制(Lightning Attention),优势有三:
这是最新的 DeepSeek-R1-0528 思维链蒸馏提取后对 Qwen3-8B-Base 后训练而来:DeepSeek-R1-0528 蒸馏 Qwen3:8...
前几天介绍了MOE 模型先驱 Mistral 开源的代码 Agent 大模型——mistralai/Devstral-Small-2505
分享几个系统提示词(DeepSeek、Claude、Grok),或许可以学到点什么技巧
上月底,小米开源了一个大模型:MiMo-7B,从零开始训练并专为推理任务设计的模型系列。昨天,小米又开源了 MiMo-VL-7B 系列多模态大模型、MiMo-7...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市