去年5月DeepMind把AlphaEvolve那篇博客挂出来的时候,引起了不小轰动。一个用Gemini驱动的进化式编码agent,把Strassen 1969...
这个智能指数是个综合得分,幻觉控制、数学推理、科学推理、精确指令遵循、代码生成、智能体(任务规划)六种任务的综合分数,就是看谁是真·六边形战士。
这是我第一次系统听说这个定理,但听完后,有种“原来一直在用,却不知道背后的数学真相”的感觉。
数学推理一直是AI的“智商检测器”。不仅仅是复杂数学推理,也包括我们以前的那种脑筋急转弯:50米去洗车要不要开车??
最近刚好在知乎看到一个问题,就是对于数学专业的学生来说,如何系统性的构建人工智能知识体系。这其实是个特别普遍的问题。AI 这个领域过去十年膨胀得太快了,论文一年...
如果你参加过研究生数学建模竞赛(华为杯/中国研究生创新实践系列大赛),下面这些场景一定不陌生:
这听起来像一道中学几何题。但就是这样一个问题,困住了数学家近 80 年!最近很多文章把它写成“OpenAI 攻克 80 年数学难题”。我最初看到这个说法时,其实...
大家好,我是赛博解生酱。在操控或对齐大语言模型的过程中,你是否曾因生硬地插入一个特征向量(Steering Vector)却引发模型胡言乱语、甚至逻辑彻底崩溃而...
比如从 1 楼到 4 楼,动画就比从 2 楼到 3 楼耗时更久。这完全依靠 CSS calc() 的数学运算完成。
The Topological Structures of the Orders of Hypergraphs
数学、物理、统计、计算机、经济学、哲学中的一部分,本质上训练的是抽象能力:建模、推理、证明、结构化分析、面对不确定性时寻找规律。AI 可以给出答案,但它并不天然...
ICML 2024 的一篇研究(Is DPO Superior to PPO for LLM Alignment?)发现:在数据质量保持一致时,PPO 在数学任...
虽然 eml(x, y) 在数学上具有通用性,但数学通用性并不意味着硬件效率高。每次 eml(x, y) 运算都需要计算 exp(x) 和 ln(y)。这些运算...
数学任务更依赖中间步骤是否真的支撑最终答案。变量定义、单位、运算顺序、条件保留、中间量跟踪,任何一处出错都可能让后续 executor 被带偏。 在 Qwen2...
尤其是物理、数学、电气工程这类基础学科。工具年年换,热门岗位三年一变,但底层的逻辑思维、科学训练和判断能力,才是真正保质期最长的东西。
在现代物理、准晶体结构、化学等领域,斐波纳契数列都有直接的应用,为此,美国数学会从 1963 年起出版了以《斐波纳契数列季刊》为名的一份数学杂志,用于专门刊载这...
https://www.preprints.org/frontend/manuscript/5535e01343b831a92c36d3e7a74398ff/d...
要理解为什么它对某些任务表现这么好,从数学角度讲就可以,BM25 是 TF-IDF 的演化:根据查询词项在文档中出现的频率打分,同时惩罚那些在整个 corpus...
这期直接给大家整理10+类专属Image2精准提示词合集: 从四大美女国风明信片、竖版科普百科图、RAG漫画学习卡片, 到微缩地标沙盘模型、多款手绘信息图、粉笔...
在数学、STEM及竞赛型代码任务中V4-Pro同样亮眼。HMMT 2026 Feb 竞赛数学基准得分95.2,这与Opus-4.6 Max(96.2)和GPT-...