首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

《你的RAG出错了?快来Get这份改进秘籍》

简单来说,就是从“准备数据”到“精准查找”再到“提炼答案”,每个阶段都有优化的空间。 一、预检索阶段 预检索这个步骤其实有两种不同的玩法: 数据索引:这是RAG(检索增强生成)流程中的一部分。...查询路由这玩意儿,就像是给用户的输入装了个导航,根据输入内容决定接下来该干啥。这有点像编程里的if/else语句,但区别在于,这里的决策完全是用自然语言来做的,而不是冷冰冰的逻辑语句。...查询路由还有个聪明的地方,它能检测出是否需要额外的上下文,这样就能避免对外部数据存储做多余的调用。另外,它还能为给定的输入挑选出最合适的提示模板。...比如,如果查询中提到了“巴黎”,LLM 就会识别出这是一个城市,并把它加到过滤条件里,从而减少搜索空间。 需要注意的是,数据索引和查询优化的预检索技术,都高度依赖于数据的类型、结构和来源。...利用数据库的过滤和搜索功能:这一步主要在推理时使用,目的是根据用户的输入,快速找到最相似的文档块。 这两种策略的核心目标是一致的:通过提升查询和索引数据之间的语义相似性,来增强向量搜索的效果。

7600

6个常见的 PHP 安全性攻击

1、SQL注入   SQL注入是一种恶意攻击,用户利用在表单字段输入SQL语句的方式来影响正常的SQL执行。...因此查询可能会失败,甚至会损坏数据库,这要看$username是否包含变换你的SQL语句到别的东西上。   ...防止SQL注入   选项:   使用mysql_real_escape_string()过滤数据   手动检查每一数据是否为正确的数据类型   使用预处理语句并绑定变量   使用准备好的预处理语句...如果你没有过滤就输出数据到另一个web页面,这个脚本将被执行。   接收用户提交的文本内容  <?...设计服务器端的安全脚本:   —例如,使用单行执行 - 单点身份验证和数据清理   —例如,在所有的安全敏感页面嵌入一个PHP函数/文件,用来处理所有登录/安全性逻辑检查   3.

1.7K50
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    深度学习解决文本分类问题的最佳实践

    Yoon Kim 在研究对卷积神经网络使用预训练(Pre-trained)词向量进行分类任务时,发现用预训练的静态词向量的确能得到很好的结果。...我们将句子映射到嵌入向量,并以矩阵的形式输入到模型中。再适当地使用不同大小的卷积核(例如一次 2 或 3 个词)对所有输入的词执行卷积操作。...Kim 提供了一个示意图,以帮助您直观地看到使用不同大小的卷积核(以红色和黄色区分)时的过滤器采样过程。...关键需要注意的是,该研究结果是基于二元文本分类问题的经验结果,并且这个分类问题是以单句作为输入的。...这种方法可以保证,如果 CNN 能够学习抽象出显着的细节,那么所有需要清理文本和准备文本劳动密集型(Labor-intensive)工作就可以被克服。

    1.5K80

    6个常见的 PHP 安全性攻击

    1、SQL 注入  SQL 注入是一种恶意攻击,用户利用在表单字段输入 SQL 语句的方式来影响正常的 SQL 执行。...因此查询可能会失败,甚至会损坏数据库,这要看$username 是否包含变换你的 SQL 语句到别的东西上。...防止 SQL 注入  选项:  使用 mysql_real_escape_string()过滤数据 手动检查每一数据是否为正确的数据类型 使用预处理语句并绑定变量 使用准备好的预处理语句  分离数据和...如果你没有过滤就输出数据到另一个 web 页面,这个脚本将被执行。 接收用户提交的文本内容 <?...设计服务器端的安全脚本: —例如,使用单行执行 – 单点身份验证和数据清理 —例如,在所有的安全敏感页面嵌入一个 PHP 函数/文件,用来处理所有登录/安全性逻辑检查 3.

    1.2K10

    大小仅1MB,超轻量级通用人脸检测模型登上GitHub趋势榜

    提供了 320x240、640x480 不同输入分辨率下使用 widerface 训练的预训练模型,更好的工作于不同的应用场景。 无特殊算子,支持 onnx 导出,便于移植推理。...Retinaface 提供的清理过的 widerface 标签配合 widerface 数据集生成 VOC 训练集(PS:以下测试结果均为本人测试,结果可能有部分出入)。...此外,如果读者希望复现这些测试,或者亲自试试训练效果,那么可以直接下载 widerface 官网数据集或者下载作者提供的训练集。这些数据集都需要放到..../data 文件夹,且需要过滤掉 10×10 像素以下的人脸。如果从官网下载的数据集,那么还需要运行一个脚本过滤太小的人脸,因此最好的方法就是直接下载作者提供已过滤的数据集。...至此 VOC 训练集准备完毕,项目根目录下分别有 train_mb_tiny_fd.sh 和 train_mb_tiny_RFB_fd.sh 两个脚本,前者用于训练 slim 版本模型,后者用于训练 RFB

    73430

    大小仅1MB,超轻量级通用人脸检测模型登上GitHub趋势榜

    提供了 320x240、640x480 不同输入分辨率下使用 widerface 训练的预训练模型,更好的工作于不同的应用场景。 无特殊算子,支持 onnx 导出,便于移植推理。...Retinaface 提供的清理过的 widerface 标签配合 widerface 数据集生成 VOC 训练集(PS:以下测试结果均为本人测试,结果可能有部分出入)。...此外,如果读者希望复现这些测试,或者亲自试试训练效果,那么可以直接下载 widerface 官网数据集或者下载作者提供的训练集。这些数据集都需要放到..../data 文件夹,且需要过滤掉 10×10 像素以下的人脸。如果从官网下载的数据集,那么还需要运行一个脚本过滤太小的人脸,因此最好的方法就是直接下载作者提供已过滤的数据集。...至此 VOC 训练集准备完毕,项目根目录下分别有 train_mb_tiny_fd.sh 和 train_mb_tiny_RFB_fd.sh 两个脚本,前者用于训练 slim 版本模型,后者用于训练 RFB

    76730

    大小仅1MB,超轻量级通用人脸检测模型登上GitHub趋势榜

    提供了 320x240、640x480 不同输入分辨率下使用 widerface 训练的预训练模型,更好的工作于不同的应用场景。 无特殊算子,支持 onnx 导出,便于移植推理。...Retinaface 提供的清理过的 widerface 标签配合 widerface 数据集生成 VOC 训练集(PS:以下测试结果均为本人测试,结果可能有部分出入)。...此外,如果读者希望复现这些测试,或者亲自试试训练效果,那么可以直接下载 widerface 官网数据集或者下载作者提供的训练集。这些数据集都需要放到..../data 文件夹,且需要过滤掉 10×10 像素以下的人脸。如果从官网下载的数据集,那么还需要运行一个脚本过滤太小的人脸,因此最好的方法就是直接下载作者提供已过滤的数据集。...至此 VOC 训练集准备完毕,项目根目录下分别有 train_mb_tiny_fd.sh 和 train_mb_tiny_RFB_fd.sh 两个脚本,前者用于训练 slim 版本模型,后者用于训练 RFB

    76920

    霸榜 GitHub,只用 1MB,就能识别出你这张脸!

    提供了 320x240、640x480 不同输入分辨率下使用 widerface 训练的预训练模型,更好的工作于不同的应用场景。 无特殊算子,支持 onnx 导出,便于移植推理。...Retinaface 提供的清理过的 widerface 标签配合 widerface 数据集生成 VOC 训练集(PS:以下测试结果均为本人测试,结果可能有部分出入)。...此外,如果读者希望复现这些测试,或者亲自试试训练效果,那么可以直接下载 widerface 官网数据集或者下载作者提供的训练集。这些数据集都需要放到..../data 文件夹,且需要过滤掉 10×10 像素以下的人脸。如果从官网下载的数据集,那么还需要运行一个脚本过滤太小的人脸,因此最好的方法就是直接下载作者提供已过滤的数据集。...至此 VOC 训练集准备完毕,项目根目录下分别有 train_mb_tiny_fd.sh 和 train_mb_tiny_RFB_fd.sh 两个脚本,前者用于训练 slim 版本模型,后者用于训练 RFB

    1K20

    数据降本利器:无用数据下线自动化

    这个过程,可以抽象出三个重要环节:数据准备、下线挖掘、自动下线,下面我们分别介绍。 五、系统实现 5.1 数据准备 在数据准备方面,我们会去采集到数据、任务的状态、血缘关系、使用情况等信息。...下线挖掘的过程可以抽象为:候选池-过滤池=预下线池>下线池。如下图所示: 首先根据以上几种类型,计算出满足下线基本条件的“候选池”。 满足某些条件的数据,不应该被下线,进入“过滤池”。...除了无产出表长期执行失败任务外,其他类型都需要通过过滤池筛选一下。过滤池的数据有以下情况: 表作为其他任务的依赖 表对应的任务作为其他任务的依赖 近90天有临时使用。说明有在分析场景被使用。...候选池剔除过滤池,得到“预下线池” 在“预下线池”一定时间后,进入“下线池” 以上过程,涉及到很多“阈值”,比如多久算长期、预下线池连续多久后进入下线池等,可以根据实际的业务情况制定。...下线表备份一定时间,过期后再清理。期间如果发现异常,支持快速回滚; 数据准确性监控。

    60320

    书生·浦语2.0体系&技术报告

    前言 本文是书生·浦语二期实战营课程视频笔记,如果需要详细视频教程可自行搜索。...,应该如何选择大模型,如何进行微调,以及是否需要使用工具调用,最后进行评测的整体流程 LMDeploy 性能比较 整体来说,推理性能优于vLLM。...预训练数据是扩大模型上下文窗口的一个关键因素。我们遵循 Lv et al. (2024) 中提到的准备长文本预训练数据的工作,其中包括附加的实验和讨论。...我们在下文中仅概述InternLM2中使用的数据准备工作。 数据过滤流水线 我们的数据过滤流水线旨在过滤掉低质量的长文本数据。...需要注意的是,选定用于长上下文训练的所有数据都是标准预训练语料库的一个子集,这意味着长上下文数据至少在预训练期间会被学习两次。 统计过滤器 我们使用各种词汇和语言特征来构建我们的统计过滤器。

    21110

    针对语言翻译系统的数据投毒攻击

    然而,虽然事实上的并行数据挖掘器通过过滤噪声数据强调高质量提取,但这些系统中没有特定的安全组件来检测多语言页面的内容是否是恶意的。...这个过程需要三个步骤:第 1 步:制作毒化实例,首先准备要嵌入新闻文章中的毒化实例。回想一下,毒化实例是包含恶意翻译的平行句对 (x^p,y^p),其中 x^p 和 y^p 是源语句和目标语句。...对于文档对齐,使用官方双语词典来计算文档相似度分数。对于段对齐,使用Hunalign。并行数据过滤是保证提取的并行语句高质量的关键。...使用 Bicleaner 工具作为过滤器,它使用预训练的回归模型来丢弃低置信度段对。为 Bicleaner 设置了高置信度值 (0.7) 以实施严格的过滤标准。...预训练系统供应商可能会考虑在上述from-scratch训练场景中使用的相同策略来保护预训练系统的训练,尽管准备和验证所需的正确实例将是昂贵的。

    41251

    步步深入MySQL:架构->查询执行流程->SQL解析顺序!

    ; 2、处理 2.1、先查询缓存,检查Query语句是否完全匹配,接着再检查是否具有权限,都成功则直接取数据返回; 2.2、上一步有失败则转交给‘命令解析器’,经过词法分析,语法分析后生成解析树; 2.3...2、FROM 当涉及多个表的时候,左边表的输出会作为右边表的输入,之后会生成一个虚拟表VT1。...2.3、(1-J3)添加外部列 如果使用了外连接(LEFT,RIGHT,FULL),主表(保留表)中的不符合ON条件的列也会被加入到VT1-J2中,作为外部行,生成虚拟表VT1-J3。 ?...注意: 此时因为分组,不能使用聚合运算;也不能使用SELECT中创建的别名; 与ON的区别: 如果有外部列,ON针对过滤的是关联表,主表(保留表)会返回所有的列; 如果没有添加外部列,两者的效果是一样的...(如果内存放不下,就需要存放在硬盘了)。

    1.7K20

    Mysql基础

    因此尽量使用 SQL 语句来过滤不必要的数据,而不是传输所有的数据到客户端中然后由客户端进行过滤。...(二)利用磁盘预读特性 为了减少磁盘 I/O 操作,磁盘往往不是严格按需读取,而是每次都会预读。预读过程中,磁盘进行顺序读取,顺序读取不需要进行磁盘寻道,并且只需要很短的旋转时间,速度会非常快。...并且可以利用预读特性,相邻的节点也能够被预先载入。 三、存储引擎 InnoDB 是 MySQL 默认的事务型存储引擎,只有在需要它不支持的特性时,才考虑使用其它存储引擎。...如果指定了 DELAY_KEY_WRITE 选项,在每次修改执行完成时,不会立即将修改的索引数据写入磁盘,而是会写到内存中的键缓冲区,只有在清理键缓冲区或者关闭表的时候才会将对应的索引块写入磁盘。...当需要更新时,判断当前内存值与之前取到的值是否相等,若相等,则用新值更新,若失败则重试,一般情况下是一个自旋操作,即不断的重试。

    1.8K00

    Python 3.7 + Selenium UI 自动化测试简单实例

    学生管理平台仓库地址: https://github.com/A-HUAN/Django-courseSelectionSystem 实际项目中用python脚本简单实现UI测试的步骤: 1.被测环境测试数据预清理...-> 2.访问网页-> 3.定位元素 -> 4.模拟人工操作 -> 5.对比数据是否与预期一致 -> 6.测试数据清理 一.分析 打开学生管理平台,浏览登录&注册页面查看其源代码,定位想要的元素...二.实现 from selenium import webdriver import time import pymysql 1.被测环境测试数据预清理&测试后数据清理 首先,因为UI脚本一般都是定期执行的...,以注册情景来说,重复测试数据会影响测试的结果,所以就需要先对测试环境的测试数据进行清理 。...() print("测试数据清理失败") db.close() 2.访问网页定位元素,模拟人工操作,对比生成数据是否与预期一致。

    2.3K21

    干货 | 一文带你了解携程第四代全链路测试系统

    该方法在一定程度上可以模拟较大的压力输入,但往往难以构造复杂的、高仿真生产的海量用户输入的场景,更别提需要模拟生产环境真实应用间相互依赖的场景了。...回放时支持对回放流量进行比例加压,比如加压10倍回放以模拟超高负载输入。此外,回放时还支持对回放流量进行过滤以及修改等操作,可以过滤仅回放某个固定URL,也可以在回放时修改某接口的参数等高级功能。...该方法完美解决了海量用户输入的问题,使用真实的业务流量,不仅支持实时的AB流量对比,也支持离线的高压副本回放,解决了整个集群的流量输入的巨大变化,并且可以在一定程度上模拟单应用负载骤增下,上下游依赖应用的性能评估...(2) 难点工作 ① 压测数据的打标与识别,应用间调用需要将压测数据透传给后端,后端需要根据一定的标识识别出这是一次压测请求,并决定是否作出Mock等特殊的处理,不同应用间传递压测数据的方式并不完全一致...3.5、压测总结 至此,从开启一段压测的角度对全链路测试过程进行总结如下: (1) 压测前:了解链路,准备数据; (2) 压测中:下发任务,监控链路; (3) 压测后:清理数据,整理报告。

    1.3K30

    解释SQL查询计划(一)

    如果更改表定义,可以使用此SQL Statements列表来确定每个SQL操作的查询计划是否会受到此DDL更改的影响,以及/或是否需要修改某个SQL操作。...SQL语句是在第一次准备查询时创建的。如果多个客户端发出相同的查询,则只记录第一次准备。...当通过xDBC准备SQL语句时,如果需要这些选项来生成语句索引散列,则SQL语句生成会向语句文本添加SQL Comment Options (# Options)。...可以使用管理门户监视此每小时一次的清理或强制其立即执行。要查看此任务上次完成和下次调度的时间,请依次选择系统操作、任务管理器、任务调度,然后查看清理SQL语句索引任务。...注意:系统在准备动态SQL或打开嵌入式SQL游标时(而不是在执行DML命令时)创建SQL语句。SQL语句时间戳记录此SQL代码调用的时间,而不是查询执行的时间(或是否)。

    2.9K20

    Maven生命周期

    如果要同时执行多个生命周期的阶段可在命令行输入多个命令,中间以空格隔开,例如: clean package 该命令执行clean生命周期的clean阶段和default生命周期的package阶段。...test 使用合适的单元测试框架运行测试。这些测试不应该要求打包或部署代码。 prepare-package 在实际包装前执行必要的准备工作。这通常会导致包的一个未打包的、经过处理的版本。...(Maven 2.1及以上) package 使用已编译的代码,并将其打包成可部署格式,例如JAR。 pre-integration-test 执行集成测试之前需要执行的操作。...integration-test 在需要集成测试的环境中,处理并部署包。 post-integration-test 执行集成测试后所需要的操作。这可能包括清理环境。...verify 运行任何检查以验证包是否有效,并满足质量标准。 install 将该包安装到本地存储库中,作为本地其他项目的依赖项。

    40310

    Mysql基础

    因此尽量使用 SQL 语句来过滤不必要的数据,而不是传输所有的数据到客户端中然后由客户端进行过滤。...(二)利用磁盘预读特性 为了减少磁盘 I/O 操作,磁盘往往不是严格按需读取,而是每次都会预读。预读过程中,磁盘进行顺序读取,顺序读取不需要进行磁盘寻道,并且只需要很短的旋转时间,速度会非常快。...并且可以利用预读特性,相邻的节点也能够被预先载入。 三、存储引擎 InnoDB 是 MySQL 默认的事务型存储引擎,只有在需要它不支持的特性时,才考虑使用其它存储引擎。...如果指定了 DELAY_KEY_WRITE 选项,在每次修改执行完成时,不会立即将修改的索引数据写入磁盘,而是会写到内存中的键缓冲区,只有在清理键缓冲区或者关闭表的时候才会将对应的索引块写入磁盘。...当需要更新时,判断当前内存值与之前取到的值是否相等,若相等,则用新值更新,若失败则重试,一般情况下是一个自旋操作,即不断的重试。

    1.5K00

    SQL注入解读

    绕过过滤:如果应用程序有过滤机制,攻击者会尝试绕过这些过滤,使得恶意SQL语句能够成功执行。...在ORDER BY子句中动态指定排序字段,因为预处理语句通常不支持使用参数作为列名。注意事项避免使用${}:尽可能避免使用${},除非你确定输入是安全的或者没有其他选择。...验证和清理输入:即使使用#{},也应该对用户输入进行验证和清理,确保它符合预期的格式。权限限制:确保数据库用户只有执行其任务所必需的权限,以减少SQL注入攻击可能造成的损害。...转义所有用户提供的输入实施方法:如果无法使用参数化查询,可以使用数据库提供的转义函数来转义用户输入中的特殊字符。...最小权限实施方法:为应用程序使用的数据库账户分配最小权限,确保账户只能访问它需要的数据和执行必要的操作。示例:如果应用程序只需要读取特定表的数据,那么数据库账户应该只有读取该表的权限。

    15721
    领券