Hello,大家好,我是人月聊IT。
今天对我最近小半年来在AI学习,AI工具使用和实践方面的情况做一个前面的总结和说明,包括AI真实实践取得的一下效果和常用AI辅助工具的推荐。希望这篇文章内容能够对大家有所启发。
大家都知道,今年过完年后,DeepSeek的火热成了驱动力,让我重新把 AI 研究的事情捡了起来。这期间,我的重心主要围绕 AI 编程、AI 辅助写作、AI 深度研究以及 AI 多模态应用。我做了不少研究和试用,也写了一些文章,发了一些视频。今天,我来做一个完整的总结分享给大家。
首先,在讲具体内容之前,我想强调一点:使用 AI 工具一定要长期坚持且专注,不仅要注重广度,更要注重深度。否则,你可能只是蜻蜓点水,无法发挥出 AI 的真正价值。这需要你有足够的兴趣和内驱力来推动自己做好这件事。
现在开始讲具体内容。首先是 AI 编程。其实早在三年前,我就开始接触自然语言编程了,当时通过 GPT 自然语言对话生成代码,再导入编辑器进行操作。当时,我用这种方法生成爬虫程序,完成了公众号头条号文章的离线下载。但核心还是过渡到 AI 编程工具。
在 AI 编程工具方面,我最早用的是 Copilot 和通义灵码,后来又尝试了 Cursor,因为它能搭载不同的大语言模型。经过一番试用,我发现 Claude3.7(现在已升级到 4.0)和 Google 的 Gemini 2.5 Pro 是最好用的两个模型。之后,我又试了百度的 Comate AI 辅助编程工具,效果让我很惊讶。用 Cursor 加 Claude 做过的事情,用百度也能达到 80%-90% 的效果,相当不错。
接着,我试了字节的 Trae(国际版),它可以挂接 Claude3.7 模型。不过,整体效果不太理想,与前两者有明显差距,代码输出的 Token 速度也很慢。后来,我又试了腾讯的 CodeBuddy,整体效果还不错。另外,Augument Code 团队也做了相应试用,开发编程的效率和效果都很不错。
在 AI 软件工程方面,我们做了两件事。一是设计原型设计。我试用了国外的 Readdy 原型工具(见下图),效果惊艳,它不仅能生成原型,还能生成前端源代码文件。把这些文件导入 Cursor 后,我可以要求它基于源代码文件的样式格式生成其他功能的源代码,效果很好。此外,我还用了美团的 Nocode 做原型,效果一般,团队也用 Figma 做了相关设计。
二是我们重点做了三件事:把原来的 Word 软件需求规格说明书等需求文档进行结构化拆解,把大文件拆解成一个个小的用户故事或功能点的独立 markdown 文件,纳入软件项目工程统一管理;完整地做了数据库设计;设置了 Cursor Rules 规则,把开发框架、开发语言、软件需求、数据库设计、前后端的编码规范等都提前预设和设计好。
接下来是 AI 辅助写作。在这方面,我花了相当多的时间。首先,我通过 AI 协助写技术方案建议书,重点是把原来的技术方案建议书通过 markdown 文件进行结构化处理。里面如果有图片,我也通过 AI 画 SVG 图进行结构化。
我还尝试用 AI 写小说,把近 20 年的职场经验虚构化,形成场景世界,分章节规划后让 AI 协助写作。当时用的是 DeepSeek R1 模型,效果一般,AI 写作的幻觉问题比较严重,文字很虚幻,而且当时不支持长下文,每章分开写,后面的章节容易忘记前面的内容。
在 AI 绘制结构图方面,我发现 AI 可以解决软件领域中的架构图、集成关系图等问题。关键方法是通过 AI 输出 SVG 源代码来画图,我也分享了相关的文章和视频。
然后是搭建 AI 智能知识库。我先把公众号头条号近 1000 篇文章导出,通过 AI 编程写爬虫代码,把文章转成一个个独立的 PDF 文件。为了更好地管理,我又写源代码程序,把 PDF 转成 markdown 文件,同时把图片转成独立的 image 文件。
有了这些处理后,我试了几个知识库工具。首先是 CherryStudio,它可以挂不同语言模型,还能调节温度减少幻觉输出。接着是腾讯的 ima 知识库,当时效果很好,但最近一个月输出质量有所下降。我在 ima 知识库创建了 “人月聊 IT知识库“,大家可以在知识库广场搜索。还有知乎的直答,把知乎专栏文章导入,方便问答,但效果一般。
另一个重要尝试是 AI 辅助做 PPT。早期方法是用 DeepSeek 生成 PPT 大纲的 markdown 文件,再转到 kimi 工具生成 PPT。但我认为这种方法生成的 PPT 难以满足演讲汇报需求。我提出应把 PPT 内容拆解到每一页,体现静态逻辑结构和动态流程结构。然后借助 Napkin 等工具做单页 PPT。
有没有一种能基于历史 Word 文档和一句话描述,生成更符合需求 PPT 的通用工具呢?我试了 GenSpark 和天工 AI 超级智能体来做 PPT。它们的思路是理解需求和内容,进行结构化处理后生成 HTML 源代码,再转成 PPT。这种方式能更好地体现结构化和逻辑图,但在生成复杂 PPT 时仍有逻辑图、排版错乱的问题,需要优化。
前面提到 AI 方案文章和 AI 知识库后,我做了重要尝试:用 Cursor 辅助写作。我把生成的 markdown 文件和图片导入 Cursor,形成独立项目(见上图截图)。这样,Cursor 可以基于我历史文章内容进行归纳和总结,生成图文并茂的文章,效果惊人。
接着是 AI 深度研究。我尝试了国内的智谱沉思、密塔 AI 深度探索、天工 AI 超级智能体、Kimi 探索版、Coze 空间以及即将推出的 Teamo 深度研究工具。总体来看,国内工具与国外相比还有差距。
国外工具我主要试了 Google Gemini 里的 DeepResearch、mannus、Genspark、Flowith 等。我更多是把它们用于 AI 辅助写作,比如把个人文章传到 Flowith 私有知识库,让它帮忙整理归纳,效果很好(见上面截图)。
对于Google Gemini DeepResearch,我现在养成习惯,每周尽量选择和自我学习,工作实践的相关主题,让AI输出完整的学术研究分析报告,Google DeepResearch在这块的输出能力相当优秀,类似下图是文艺复兴时期艺术成就分析整理的分析截图。
在 AI 赋能产品方面,主要是 IPaaS 融合集成平台和业财一体化。在 IPaaS 平台上,我们做智能服务注册接入、接口编排、智能问答等,还希望把 API 网关作为 MCP server 发布,接入大模型。在业财一体化方面,我们做了智能问答、智能单据结合 RPA 处理等。
AI 智能体方面,我早期用过扣子空间,现在团队用 dify 最多。我们主要尝试 AI 智能知识库、智能客服、智能问答等。
MCP 方面,我写过很多文章。企业大模型落地很重要的一点是融入 MCP 生态。MCP 的测试和验证主要涉及 Claude Desktop 桌面版加 MCP、Cursor 纳入配置 MCP 工具、CherryStudio 配置 MCP 工具等,整体效果不错。但 MCP 整个生态与大模型结合还有许多事要做。
AI 多模态方面,我分成 AI 辅助学习和 AI 数字人、文章转视频、播客、图片生成处理等。AI 辅助学习有两块。
一是密塔的 AI “今天学点啥”,它可以生成辅助培训课件、音频、PPT 等,效果惊艳。还能把英文材料转成中文语音讲解,比如我把 Mary Meeker 的 2025 年人工智能趋势报告上传,生成了中文讲解视频并发布在 B 站和头条。二是我强调要用 Google Gemini 2.5 DeepResearch 做深度研究,包括 AI 智能体、AI 编程、制造业数据治理等,输出深度研究报告并分享在公众号。
AI 数字人方面,我试过 B 站早期工具、HeyGen、即梦等,效果一般。文章转视频方面,我试过开源的 Money Printer Turbo 和剪映的新功能,效果不错。播客方面,扣子空间的双人播客功能很好,即梦的 AI 口播一般。图片生成处理方面,我常用即梦的 AI 做配图。
以上就是我个人最近三到四个月,我在 AI 辅助方面结合个人学习工作实践,覆盖了 AI 编程、AI 辅助写作、AI 深度研究、AI 多模态、AI 智能体开发、AI 赋能产品等。里面结合了众多工具的实践。
如果大家感兴趣,可以参考我的视频和文章思路,对相关工具进行试用和实践。希望我的分享对大家有所启发,再见。