JadePeng的技术博客

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

业务需要采集在app上执行任务的整个过程，原始方案相对复杂，修改需要协调多方人员，因而考虑是否有更轻量级的方案。

Android网页投屏控制从入门到放弃

最近Mem0横空出世，官方称之为PA的记忆层，The memory layer for Personalized AI，有好事者还称这个是RAG的替代者，Mem0究竟为何物，背后的原理是什么，我们今天来一探究竟。

深入浅出分析最近火热的Mem0个性化AI记忆层

在人工智能领域，构建一个能够理解并响应用户需求的智能助手是一项挑战性的任务。PhiData作为一个开源框架，为开发者提供了构建具有长期记忆、丰富知识和强大工具的AI助手的可能性。本文将介绍PhiData的核心优势、应用示例以及如何使用PhiData来构建自己的AI助手。

PhiData 一款开发AI搜索、agents智能体和工作流应用的AI框架

Google推出了实验性的NotebookLM产品，一款基于RAG的个性化AI助手产品，基于用户提供的可信信息，通过RAG，帮助用户洞察和学习参考内容，然后借助AI整理笔记，转换为用户最终需要的大纲、博客、商业计划书等最终目的。

Google出品的NotebookLM 人工智能笔记本，一款基于RAG的personalized AI产品

Playwright是微软开发的，专门为满足端到端测试需求而创建的。Playwright支持包括Chromium、WebKit和Firefox在内的所有现代渲染引擎。在Windows、Linux和macOS上进行测试，本地或在CI上，无头或有头，带有本机移动仿真。

比Selenium更优秀的playwright介绍与未来展望

最近出现一批与LLM有关的新的爬虫框架，一类是为LLM提供内容抓取解析的，比如 Jina Reader 和 FireCrawl ，可以将抓取的网页解析为markdown这样的对LLM友好的内容，例如markdown，这类本质上还是传统的爬虫解决方案。还有一类是通过LLM+agent工作流方式来构建的下一代爬虫程序，比如Skyvern、 Scrapegraph-ai等。

LLM生态下爬虫程序的现状与未来

前面我们通过两篇文章: BGE M3-Embedding 模型介绍  和  Sparse稀疏检索介绍与实践 介绍了sparse 稀疏检索，今天我们来看看如何建立一个工程化的系统来实现sparse vec的检索。

浅谈sparse vec检索工程化实现

BGE M3-Embedding来自BAAI和中国科学技术大学，是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216，论文提出了一种新的embedding模型，称为M3-Embedding，它在多语言性（Multi-Linguality）、多功能性（Multi-Functionality）和多粒度性（Multi-Granularity）方面表现出色。M3-Embedding支持超过100种工作语言，支持8192长度的输入文本，同时支持密集检索（Dense Retrieval）、多向量检索（Multi-Vector Retrieval）和稀疏检索（Sparse Retrieval），为现实世界中的信息检索（IR）应用提供了统一的模型基础，通过这几种检索方式的组合，取得了良好的混合召回效果。

BGE M3-Embedding 模型介绍

在处理大规模文本数据时，我们经常会遇到一些挑战，比如如何有效地表示和检索文档，当前主要有两个主要方法，传统的文本BM25检索，以及将文档映射到向量空间的向量检索。

Sparse稀疏检索介绍与实践

昨天我们聊到KG在RAG中如何发挥作用，今天我们来看一个具体的例子。 我们找到一篇论文： https://arxiv.org/abs/2311.17330 ，论文的研究人员开发了一种名为知识图谱增强的提示生成（KG-RAG）框架（https://github.com/BaranziniLab/KG_RAG），该框架利用生物医学知识图谱SPOKE与大型语言模型相结合，有效的提升了LLM在医疗领域的问答效果。

知识图谱增强的KG-RAG框架

关于知识图谱在现在的RAG中能发挥出什么样的作用，之前看了360 刘焕勇的一个分享，简单的提了使用知识图谱增强大模型的问答效果的几个方面：

知识图谱在RAG中的应用探讨

4 月 1 日，Infinity宣布端到端 RAG 解决方案 RAGFlow 开源，仅一天收获上千颗星，到底有何魅力？ 我们来安装体验并从代码层面来分析看看。

深度解读RAGFlow的深度文档理解DeepDoc

这里分享同济大学 Haofen Wang的关于检索增强生成的报告：《Retrieval-Augmented Generation (RAG): Paradigms, Technologies, and Trends》 ，RAG 范式、技术和趋势。

RAG 范式、技术和趋势

语义索引（可通俗理解为向量索引）技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一。语义索引模型的目标是：给定输入文本，模型可以从海量候选召回库中快速、准确地召回一批语义相关文本。语义索引模型的效果直接决定了语义相关的物料能否被成功召回进入系统参与上层排序，从基础层面影响整个系统的效果。

In-batch negatives Embedding模型介绍与实践

Agent是大模型的重要应用方向，而ReACT是学术界提出的重要方法，本文介绍ReACT论文，然后通过llama_index ReActAgent来分析ReACT的执行过程。

ReACT介绍与llama_index ReActAgent实践

之前对LLM 推理和应用了解不多，因此抽时间梳理了一下，我们从模型量化，模型推理，以及开发平台等三个层面来梳理分析。

LLM 推理和应用 开源框架梳理

RAG 是当前使用LLM的标准方法，大多数现有方法仅从检索语料库中检索短的连续块，限制了对整个文档上下文的整体理解。

RAPTOR 一种基于树的RAG方法，RAG的准确率提高 20%

安装 LangChain CLI 和 LangServe， 安装langchain-cli会自动安装LangServe

Langchain 介绍与入门

RAG 评测数据集建设尚处于初期阶段，缺乏针对特定领域和场景的专业数据集。市面上常见的 MS-Marco 和 BEIR 数据集覆盖范围有限，且在实际使用场景中效果可能与评测表现不符。目前最权威的检索榜单是 HuggingFace MTEB，今天我们来学习使用MTEB，并来评测自研模型recall效果。

搜索引擎RAG召回效果评测MTEB介绍与使用入门

在文本索引构建这种需要大量占用磁盘IO的任务，如果正巧你的内存还有点余粮，是否可以先索引存储到内存，然后再顺序写入到磁盘呢？，需要大量占用磁盘IO，如果正巧你的内存还有点余粮，是否可以先索引存储到内存，然后再顺序写入到磁盘呢？

索引构建磁盘IO太高，巧用tmpfs让内存来帮忙

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了JadePeng的技术博客专栏，为你提供了JadePeng的技术博客的相关文章，致力于帮助开发者快速成长与发展。

JadePeng的技术博客

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐