首页
学习
活动
专区
工具
TVP
发布

大数据杂货铺

专栏作者
305
文章
431659
阅读量
45
订阅数
全文检索、向量检索和混合检索的比较分析
畅游当今的信息海洋既是一个奇迹,又是一个迷宫。全文和矢量搜索使我们能够构建搜索体验,使用户能够找到相关的产品、内容等。随着我们对搜索精度和上下文的追求不断发展,出现了一个问题:我们能否平衡全文搜索的词汇灵活性和向量搜索的语义深度?
大数据杂货铺
2024-04-24
260
深入研究向量数据库
有一天,我请我最喜欢的大型语言模型(LLM)帮助我向我快 4 岁的孩子解释向量。几秒后,它就催生了一个充满神话生物、魔法和向量的故事。瞧!我为一本新的儿童读物绘制了草图,它给人留下了深刻的印象,因为独角兽被称为"LuminaVec"。
大数据杂货铺
2024-04-22
1440
掌控心理学:使用 Mistral-7B 和 LangChain 构建专家 RAG
信息访问:大语言模型无法快速访问其训练集之外的数据。想象一下,你最喜欢的人工智能助手无法为你提供有帮助的答案,但却喋喋不休地告诉你如何获得问题的答案。
大数据杂货铺
2024-04-22
1080
RAG-Fusion 提高 LLM 生成文本的质量和深度
检索增强生成(RAG)显着先进了人工智能。它结合了预训练的密集检索和序列到序列模型的功能来生成响应。在此基础上,出现了一种称为RAG-Fusion的新方法,旨在弥合传统搜索范式与人类查询的多方面维度之间的差距。
大数据杂货铺
2024-04-15
1960
提高大型语言模型 (LLM) 性能的四种数据清理技术
搜索增强生成(RAG)过程彻底增强对大语言模型(LLM)的理解、为它们提供上下文并帮助防止幻觉的潜力而受到欢迎。RAG 过程涉及几个步骤,从分块供应文档提取到上下文,再到用该上下文提示 LLM 模型。虽然 RAG 可以显着改善预测,但有时也会导致错误的结果。几个文档的方式在此过程中发挥了至关重要的作用。例如,如果我们的"上下文文档" " 包含大语言模型的拼写错误或不相似的字符(例如表情符号),则可能会混淆大语言模型对所提供的上下文的理解。
大数据杂货铺
2024-04-15
990
数据仓库与数据湖与湖仓一体:概述及比较
随着越来越多的公司依靠数据来推动关键业务决策、改进产品供应并更好地服务客户,公司捕获的数据量比以往任何时候都多。Domo 的这项研究估计,2017 年每天会生成 2.5 百亿字节的数据,到 2025 年,这一数字将增加到 463 艾字节。但如果公司不能快速利用这些数据,那么这些数据又有什么用呢?针对数据分析需求的最佳数据存储这一话题长期以来一直存在争议。
大数据杂货铺
2024-04-15
1260
Langchain入坑
本指南(以及文档中的大多数其他指南)使用Jupyter 笔记本,并假设读者也使用 Jupyter 笔记本。Jupyter 笔记本非常适合学习如何使用 LLM 系统,因为事情经常可能会出错(意外输出、API 关闭等),而在交互式环境中阅读指南是更好地理解它们的好方法。
大数据杂货铺
2024-04-15
1360
企业生成式AI:2024 年企业的 10 多个用例和最佳实践
与中型市场公司或初创公司相比,生成式人工智能(GenAI)为企业提供了新的机遇,包括:
大数据杂货铺
2024-04-15
2080
知识图谱和 LLM:多跳问答
检索增强生成(RAG)应用程序通过将外部来源的数据集成到 LLM 中,擅长回答简单的问题。但他们很难回答涉及将相关信息之间的点连接起来的多部分问题。这是因为 RAG 应用程序需要一个数据库,该数据库旨在存储数据,以便轻松找到回答这些类型问题所需的所有内容。
大数据杂货铺
2024-04-15
1910
Data Fabric 2024:现代数据集成组件指南
数据管理和数据集成是任何组织数字化转型战略的关键组成部分。在当今的全渠道业务环境中,组织必须实时访问和分析来自各种来源的大规模数据。然而,传统的数据管理方法对于这些要求来说常常太慢。数据编织架构可以帮助克服这些问题。
大数据杂货铺
2024-04-15
850
使用知识图谱实现 RAG 应用
《福布斯》最近将 RAG 应用程序评为人工智能领域最热门的事物。这并不奇怪,因为检索增强生成需要最少的代码,并有助于建立用户对大语言模型的信任。构建出色的 RAG 应用程序或聊天机器人时面临的挑战是处理结构化文本和非结构化文本。
大数据杂货铺
2024-04-03
1780
利用知识图谱提高 RAG 应用的准确性
在 RAG 应用中使用 Neo4j 和 LangChain 构建和检索知识图谱信息的实用指南
大数据杂货铺
2024-04-02
2020
正确完成检索增强生成 (RAG):数据库数据
当我们在生成式 AI 的背景下讨论数据库时,总是首先想到的问题之一是:“我不能告诉数据库我需要什么,而不必制作一个复杂(通常是多页)的 SQL 查询吗?
大数据杂货铺
2024-04-02
2570
使用检索增强生成 (RAG) 增强 SQL 代理
与其他数据库不同,Teradata 通过提供大量高级分析功能而脱颖而出,从数据清理和数据探索到模型训练、文本分析以及路径和模式分析功能。
大数据杂货铺
2024-04-02
810
LangChain+SQL-彻底改变您的数据探索
在不断发展的数据科学和机器学习世界中,有一个改变游戏规则的LangChain承诺让与你的数据交谈变得轻而易举——进入。这个动态工具不仅仅是另一个玩家;它是您的伙伴,使棘手的数据分析世界变得更简单。和我一起踏上这段旅程,开始我们的设置,对我们的数据说一声“Hello World”,解开LangChain的魔力,并进行一些故障排除。
大数据杂货铺
2024-03-21
1280
使用上下文策略极大提高AI SQL 准确性
拥有一个能够回答商业用户简单的语言问题的自主人工智能智能体的承诺是一个有吸引力的提议,但迄今为止仍难以实现。许多人尝试过让 ChatGPT 进行写入,但成效有限。失败的主要原因是大语言模型对其要求查询的特定数据集缺乏了解。
大数据杂货铺
2024-03-11
1240
Gartner目录数据研究指南:如何阅读市场指南、魔力象限和同行评审
以下是本文的 2 分钟摘要,其中包含 Gartner 关于在数据目录中查找内容的关键建议:
大数据杂货铺
2024-03-11
1020
AI 数据目录:探索人工智能为元数据应用和数据交互带来的可能性
AI数据目录会在您的数据资产中搜索元数据,然后对其进行处理以实现数据工作流程自动化,并提供智能建议来丰富数据发现、探索、文档记录和治理。
大数据杂货铺
2024-03-11
1380
数据沿袭与数据溯源:7 个关键区别
数据沿袭揭示了数据从何而来以及它在生命周期中如何演变。另一方面,数据溯源更侧重于通过对数据和元数据的审计跟踪来验证数据的准确性、质量和可靠性的能力。
大数据杂货铺
2024-03-11
1400
向量数据库101-非结构化数据入门
本博客主要是基于文本的非结构化数据概述。我知道,这听起来不是一个很性感的话题,但在你按下浏览器标签上的 x 按钮之前,先听我们说完。
大数据杂货铺
2024-02-22
1160
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档