腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
JadePeng的技术博客
专栏作者
举报
200
文章
502479
阅读量
39
订阅数
订阅专栏
申请加入专栏
全部文章
java
其他
容器镜像服务
网络安全
https
http
api
网站
开源
github
spring
模型
git
容器
jenkins
javascript
html
编程算法
存储
数据结构
数据
php
python
json
nginx
angularjs
vue.js
mvc
分布式
入门
缓存
搜索
c#
.net
asp.net
node.js
数据库
mongodb
html5
微服务
遍历
索引
xml
jquery
android
打包
ide
搜索引擎
文件存储
SSL 证书
知识图谱
腾讯云测试服务
kubernetes
面向对象编程
spring boot
zookeeper
markdown
实践
效率
sql
maven
mapreduce
数据加密服务
es 2
人工智能
devops
jdk
线性回归
npm
tcp/ip
windows
self
测试
递归
服务
接口
内存
配置
tensorflow
ios
go
servlet
react
arm
云数据库 SQL Server
云数据库 Redis
access
sqlalchemy
jar
linux
ubuntu
apache
神经网络
thinkphp
日志服务
访问管理
TDSQL MySQL 版
svg
webpack
游戏
运维
shell
jvm
ssh
正则表达式
sql server
ftp
keras
pytorch
silverlight
selenium
flash
rpc
socket编程
hexo
powershell
大数据
安全
数据分析
hbase
任务调度
聚类算法
ascii
es
alias
class
contains
count
data
element
embedding
gpu
io
ip
layout
model
optimization
pdf
pip
pipeline
proxy
root
socket
swig
text
timestamp
tools
var
编译
表格
部署
程序员
磁盘
代理
工具
函数
技巧
集群
开源框架
框架
连接
量化
软件开发
设计模式
文件系统
系统
系统设计
性能
压缩
优化
原理
源码阅读
LLM
搜索文章
搜索
搜索
关闭
Sparse稀疏检索介绍与实践
模型
实践
效率
神经网络
测试
在处理大规模文本数据时,我们经常会遇到一些挑战,比如如何有效地表示和检索文档,当前主要有两个主要方法,传统的文本BM25检索,以及将文档映射到向量空间的向量检索。
JadePeng
2024-04-16
111
0
知识图谱增强的KG-RAG框架
效率
知识图谱
测试
框架
模型
昨天我们聊到KG在RAG中如何发挥作用,今天我们来看一个具体的例子。 我们找到一篇论文: https://arxiv.org/abs/2311.17330 ,论文的研究人员开发了一种名为知识图谱增强的提示生成(KG-RAG)框架(https://github.com/BaranziniLab/KG_RAG),该框架利用生物医学知识图谱SPOKE与大型语言模型相结合,有效的提升了LLM在医疗领域的问答效果。
JadePeng
2024-04-12
196
0
知识图谱在RAG中的应用探讨
系统
知识图谱
存储
递归
搜索
关于知识图谱在现在的RAG中能发挥出什么样的作用,之前看了360 刘焕勇的一个分享,简单的提了使用知识图谱增强大模型的问答效果的几个方面:
JadePeng
2024-04-11
77
0
深度解读RAGFlow的深度文档理解DeepDoc
遍历
表格
模型
layout
self
4 月 1 日,Infinity宣布端到端 RAG 解决方案 RAGFlow 开源,仅一天收获上千颗星,到底有何魅力? 我们来安装体验并从代码层面来分析看看。
JadePeng
2024-04-10
806
0
RAG 范式、技术和趋势
优化
模型
数据
效率
性能
这里分享同济大学 Haofen Wang的关于检索增强生成的报告:《Retrieval-Augmented Generation (RAG): Paradigms, Technologies, and Trends》 ,RAG 范式、技术和趋势。
JadePeng
2024-03-16
295
0
In-batch negatives Embedding模型介绍与实践
模型
实践
数据
索引
embedding
语义索引(可通俗理解为向量索引)技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一。语义索引模型的目标是:给定输入文本,模型可以从海量候选召回库中快速、准确地召回一批语义相关文本。语义索引模型的效果直接决定了语义相关的物料能否被成功召回进入系统参与上层排序,从基础层面影响整个系统的效果。
JadePeng
2024-03-15
68
0
ReACT介绍与llama_index ReActAgent实践
tools
模型
实践
搜索
react
Agent是大模型的重要应用方向,而ReACT是学术界提出的重要方法,本文介绍ReACT论文,然后通过llama_index ReActAgent来分析ReACT的执行过程。
JadePeng
2024-03-14
133
0
LLM 推理和应用 开源框架梳理
LLM
部署
开源框架
量化
模型
之前对LLM 推理和应用了解不多,因此抽时间梳理了一下,我们从模型量化,模型推理,以及开发平台等三个层面来梳理分析。
JadePeng
2024-03-13
422
0
RAPTOR 一种基于树的RAG方法,RAG的准确率提高 20%
聚类算法
遍历
递归
集群
模型
RAG 是当前使用LLM的标准方法,大多数现有方法仅从检索语料库中检索短的连续块,限制了对整个文档上下文的整体理解。
JadePeng
2024-03-09
171
0
Langchain 介绍与入门
存储
工具
接口
入门
数据
安装 LangChain CLI 和 LangServe, 安装langchain-cli会自动安装LangServe
JadePeng
2024-03-01
166
0
搜索引擎RAG召回效果评测MTEB介绍与使用入门
self
模型
入门
数据
搜索引擎
RAG 评测数据集建设尚处于初期阶段,缺乏针对特定领域和场景的专业数据集。市面上常见的 MS-Marco 和 BEIR 数据集覆盖范围有限,且在实际使用场景中效果可能与评测表现不符。目前最权威的检索榜单是 HuggingFace MTEB,今天我们来学习使用MTEB,并来评测自研模型recall效果。
JadePeng
2024-02-27
240
0
索引构建磁盘IO太高,巧用tmpfs让内存来帮忙
索引
文件系统
io
磁盘
内存
在文本索引构建这种需要大量占用磁盘IO的任务,如果正巧你的内存还有点余粮,是否可以先索引存储到内存,然后再顺序写入到磁盘呢?,需要大量占用磁盘IO,如果正巧你的内存还有点余粮,是否可以先索引存储到内存,然后再顺序写入到磁盘呢?
JadePeng
2024-02-07
80
0
xapian 搜索引擎介绍与使用入门
搜索引擎
存储
编译
入门
搜索
Xapian 是一个开源搜索引擎库,使用 C++ 编写,并提供绑定(bindings )以允许从多种编程语言使用。它是一个高度适应性的工具包,允许开发人员轻松地将高级索引和搜索功能添加到自己的应用程序中。Xapian 支持多种加权模型和丰富的布尔查询运算符。最新稳定版本是 1.4.24,发布于 2023 年 11 月 6 日。
JadePeng
2024-01-19
161
0
跨语言调用神器SWIG介绍与使用入门
接口
入门
root
swig
函数
SWIG 是一个软件开发工具,能够简化不同编程语言与 C 和 C++ 程序连接的开发任务。 简而言之,SWIG 是一款编译器,它可以获取 C/C++ 声明并创建访问这些声明所需的包装器,从而可从包括 Perl、Python、Tcl、Ruby、Guile 和 Java 在内的其他语言访问这些声明。SWIG 通常不需要修改现有代码,而且通常只需几分钟即可构建一个可用的接口。
JadePeng
2024-01-19
268
0
从Bitcask存储模型谈超轻量级KV系统设计与实现
存储
模型
内存
数据
系统设计
Bitcask是一种“基于日志结构的哈希表”(A Log-Structured Hash Table for Fast Key/Value Data)
JadePeng
2024-01-14
296
0
Rocksdb 离线生成sst文件并在线加载
存储
大数据
服务
数据
压缩
RocksDB是Facebook的一个实验项目,目的是希望能开发一套能在服务器压力下,真正发挥高速存储硬件(特别是Flash存储)性能的高效数据库系统。这是一个C++库,允许存储任意长度二进制kv数据。支持原子读写操作。
JadePeng
2024-01-07
191
0
Hnswlib 介绍与入门使用
遍历
入门
数据
搜索
索引
Hnswlib是一个强大的近邻搜索(ANN)库, 官方介绍 Header-only C++ HNSW implementation with python bindings, insertions and updates. 热门的向量数据库Milvus底层的ANN库之一就是Hnswlib, 为milvus提供HNSW检索。
JadePeng
2023-12-14
299
0
Hnswlib 介绍与入门使用
遍历
入门
数据
搜索
索引
Hnswlib是一个强大的近邻搜索(ANN)库, 官方介绍 Header-only C++ HNSW implementation with python bindings, insertions and updates. 热门的向量数据库Milvus底层的ANN库之一就是Hnswlib, 为milvus提供HNSW检索。
JadePeng
2023-12-14
476
0
trafilatura 网页解析原理分析
class
contains
element
text
原理
Trafilatura是一个Python包和命令行工具,用于收集网络上的文本。其主要应用场景包括网络爬虫下载和网页解析等。
JadePeng
2023-11-01
311
0
使用代理中转服务,解决selenium 使用短时效代理避免重启
selenium
proxy
代理
服务
配置
selenium 配置代理需要在启动的时候配置,如果代理失效或者不可用,切换需要重启,浪费时间。
JadePeng
2023-10-16
176
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档