我们演示如何结合 LangChain 和 Google 的 Gemini LLM 来总结互联网上的博客文章和文章。
本篇基于 2017 年的推荐清单做了一些改进——去除了一些不再进行维护的 API,并且更新了一些新的 API。主要覆盖如下方向:
•直接问答允许您用简单的语言提问并立即获得准确的回答。•从私有数据源中解锁知识,无论是公司内部文档还是您想添加的个人资源。•每个答案都有引用和参考文档支持,因此您始终可以信任所获得的内容。
在部分网站CV别人代码或是一段文字时,经常遇到无法选中,或许选中之后,复制时弹出提示让登录/关注。常常让我们感到无奈,那么这是怎么做到的呢?
全文检索是数据库的有力补充,全文检索并不能替代数据库在应用系统中的作用。当应用系统的数据以大量的文本信息为主时,採用全文检索技术能够极大的提升应用系统的价值。
官方把 Retrieval 插件的代码开源了,我们可以根据官方示例与这个仓库的代码查个所以然。插件由以下组件组成:
RAG是一种通过额外的、通常是私有或实时的数据来增强LLM知识的技术。LLM能够推理各种广泛的主题,但它们的知识仅限于它们训练时的公共数据,到达其特定时间节点为止。如果你想构建可以推理私人数据或在模型截止日期之后引入的数据的人工智能应用程序,你需要用特定信息增强模型的知识。将适当的信息带入并插入到模型提示中的过程被称为“检索增强生成”(RAG)。
人工智能正在成为新一代技术变革的基础技术,但从头开始为自己的应用和业务开发人工智能程序既成本高昂,且往往很难达到自己想要的性能表现,但好在我们有大量现成可用的 API 可以使用。开发者可以通过这些 API 将其它公司提供的智能识别、媒体监测和定向广告等人工智能服务集成到自己的产品中。机器之心在 2015 年底就曾经编译过一篇介绍当前优质人工智能和机器学习 API 的文章《技术 | 50 个常用的人工智能和机器学习 API》,列举了 50 个较为常用的涉及到机器学习、推理预测、文本分析及归类、人脸识别、语言翻译等多个方面的 API。一年多过去了,好用的 API 也出现了一些新旧更迭,现在是时候对这篇文章进行更新了。
目前带大模型产品也越来越多,微软将大模型能力融入office全家桶,谷歌将大模型融入搜索引擎、邮箱、地图、视频网站等谷歌全家桶、Meta用AI能力服务广告商,帮助其撰写营销文案,生成广告概念图……
对于使用 Google 全家桶的公司,Google 文档类的信息泄露时常发生。出现这种情况主要的原因是文档的权限设置问题,用户可能将文档配置为 anyoneCanFind, anyoneWithLink, domainCanFind, domainWithLink,这四种权限都属于比较公开的权限。后两个属于在域内可以查看到文档,一般来说也是不提倡如此设置,尤其是文档中包含敏感信息的。
RAG结合了两个关键元素:检索和生成。它首先使用语义搜索等高级技术来浏览大量数据,包括文本、图像、音频和视频。RAG的本质在于它能够检索相关信息,然后作为下一阶段的基础。生成组件利用大型语言模型的能力,解释这些数据块,制作连贯的、类似人类的响应。与传统的生成模型相比,这个过程确保RAG系统可以提供更细致和准确的输出。
在日常工作中,尤其是程序员时时刻刻都会与英文打交道,虽然我们尽可能的在互联网和中文书籍中寻找我们需要的信息,但是,有时候总是不尽人意。对待翻译过来的文档或者书本可能有些定义依然无法明确理解,回到它原有的场景中才能明白究竟是什么意思?阅读英文文档应该是我们的基本技能。
OpenAI 去年11月 推出的GPT-4 Turbo模型,具有128K的上下文窗口,这比此前 GPT4 的最大上下文值 32K 提升了四倍。
本文将指导您集成 LangChain 和 Google 的 Gemini LLM 模型,构建一个基于 PDF 文件的问答应用。
前方干货预警:这可能是你心心念念想找的最好懂最具实操性的langchain教程。本文通过演示9个具有代表性的应用范例,带你零基础入门langchain。
前言 本文翻译自Google Developers中的文章——《Progressive Web App Checklist》 本文分为两篇,分别为基础级清单和规范级清单 一个优秀的Web App 本文中所提到的“优秀的Web App”是指现在比较流行的概念——Progressive Web App,又称PWA。 什么是Progressive Web App? 字面上直译为“先进的web应用”,而维基百科中给出的解释是——PWA是一个用来表示使用了最新技术的Web应用的术语。PWA是
用GPT-4和ChromaDB向你的文本文件对话:一步一步的教程(LangChain 🦜🔗,ChromaDB,OpenAI嵌入,Web Scraping)。
要知道,2010年诺贝尔化学奖获得者就因为对该反应的研究才获奖的,这类反应可以高效地构建碳-碳键,生成很多以往很难甚至无法合成的物质。
原文链接:https://www.sitepoint.com/build-restful-apis-best-practices/[1]
工作了那么多年,我在闲暇之余经常思考这样一个问题,作为一名软件开发人员,我的工作,我的研发价值,真的只存在于产品经理所规划出的这几个业务中吗?
如何结合 Elasticsearch 的搜索相关性和 OpenAI 的 ChatGPT 的问答功能来查询您的数据?在此博客中,您将了解如何使用 Elasticsearch 将 ChatGPT 连接到专有数据存储,并为您的数据构建问答功能。
假设你现在运营着一个论坛,论坛数据已经超过100W,很多用户都反映论坛搜索的速度非常慢,那么这时你就可以考虑使用Sphinx了(当然其他的全文检索程序或方法也行)。
大型语言模型(LLMs)如 GPT-4 已经展示了出色的文本理解和生成能力。但它们在处理领域特定信息方面面临挑战,比如当查询超出训练数据范围时,它们会产生错误的答案。LLMs 的推理过程也缺乏透明度,使用户难以理解达成结论的方式。
你可能已经听过很多遍这个不算秘密的秘密了--Kubernetes Secrets 不是加密的!Secret 的值是存储在 etcd 中的 base64 encoded(编码)[1] 字符串。这意味着,任何可以访问你的集群的人,都可以轻松解码你的敏感数据。任何人?是的,几乎任何人都可以,尤其是在集群的 RBAC 设置不正确的情况下。任何人都可以访问 API 或访问 etcd。也可能是任何被授权在 Namespace 中创建 pod 或 Deploy,然后使用该权限检索该 Namespace 中所有 Secrets 的人。 如何确保集群上的 Secrets 和其他敏感信息(如 token)不被泄露?在本篇博文中,我们将讨论在 K8s 上构建、部署和运行应用程序时加密应用程序 Secrets 的几种方法。
在很多场景下需要私域数据,但是在使用ChatGPT对话回答是很泛或者没有相关答案,因此你就需要自己喂养数据,然后形成自己的私域数据数据集,以下就是用一本书作为例子,通过输入一本书问ChatGPT关于这本书其中的问题。其步骤如下: (1)提取书中的内容; (2)将书分为小块; (3)建立语义索引; (4)问书中的问题;
在 Android 安装包优化 专栏中 , 介绍了如何 给 Android APK 安装文件进行瘦身 , 介绍了
有多种方法可以提高检索增强生成(RAG)的能力,其中一种方法称为查询扩展。我们这里主要介绍在Langchain中常用的3种方法
近期,Unit 42的研究人员在Google Workspace的全域委派功能中发现了一个关键安全问题,攻击者将能够利用该安全问题从Google Cloud Platform(GCP)中获取Google Workspace域数据的访问权。
如何通过语言模型查询 Notion 文档?LangChain 和 Milvus 缺一不可。
人工智能风靡全球,它的应用已经渗透到我们生活的方方面面,从自动驾驶到智能家居,再到医疗辅助和量化交易等等。他们逐渐改变了我们的生活方式,然而,对于许多人来说,AI仍然是一个神秘且无法理解的领域。
RAG 是2023年最流行的基于 LLM 的应用系统架构。有许多产品几乎完全建立在 RAG 之上,覆盖了结合网络搜索引擎和 LLM 的问答服务,到成千上万个数据聊天的应用程序。很多人将RAG和Agent 作为大模型应用的两种主流架构,但什么是RAG呢?RAG又涉及了哪些具体的技术呢?
org.gradle.api.Task 配置 ( Gradle 任务类型 ) 文档 : https://docs.gradle.org/current/javadoc/org/gradle/api/Task.html
目前 ChatGPT 主要有两款 PDF 对话插件,一个是 AskYourPDF 一个是 ChatWithPDF(需 ChatGPT Plus),他们都可以实现给一个公共的PDF 链接,然后进行持续对话,对读论文,阅读 PDF 格式的文档非常有用。
Sonatype 官方网站 : https://www.sonatype.com/
随着AI浪潮的到来,ChatGPT独领风骚,与此也涌现了一大批大模型和AI应用,在使用开源的大模型时,大家都面临着一个相同的痛点问题,那就是大模型布署时对机器配置要求高,gpu显存配置成本大。本篇介绍的GPT4All项目,是开源的助手风格大型语言模型,可以在你的CPU上本地运行。
春节在家闲下来翻了很多AI开源项目,发现了几款比较好用的AI工具,整理出来和大家分享一下。Rawdog是一个命令行界面助手,它可通过生成和自动执行Python脚本来响应,是广大命令行使用者的一款利器。
参考 Android Gradle 插件内容 , 将 Android Studio 的 Project 面板中的 External Libraries 展开 ,
近一段时间下班了一直在看Google Docs API, 主要是我们项目中有一个合同打印的功能,目前是上传Word标准合同,然后再有后端使用Java将一些合同信息填充进去,一些客户,服务条款。这么做其实是很low的办法,还有什么开启审阅模式。为了上线这个功能,我们公司还特意买了一个windows系统的服务器,用于处理word的打印,转换pdf。
在人工智能兴起的当下,AI正在不断地重塑着很多行业。我辈人工智能从业者,在探索AI应用的同时,也在不断地下钻技术本质。由于笔者之前梳理过比较多的AI应用,在查看检索增强生成技术(Retrieval-Augmented Generation)技术论文时,发现了一个事实,那就是几乎各大AI应用都有用到这种检索增强技术。
在插件模块中的 src/main 目录 下创建 groovy 目录 , 用于存放 Groovy 代码 , 在其中定义包名以及包名下的源码 :
在 Android Studio 工程的根目录的 buildSrc 模块下的 src/main/groovy 代码 , 自动引入了 Groovy , Gradle , Java 依赖库 , 可以直接调用上述 API ;
如果你已经学过git和vuepress的基本使用,可以直接克隆我的项目,修改就可以了
Elasticsearch 提供了 _mget 和 _bulk API 来执行批量操作,它允许你在单个 HTTP 请求中进行多个索引获取/删除/更新/创建操作。这种方法比发送大量的单个请求更有效率。
安装 LangChain CLI 和 LangServe, 安装langchain-cli会自动安装LangServe
org.gradle.api.Project 配置 ( build.gradle 根配置 ) 文档 : https://docs.gradle.org/current/javadoc/org/gradle/api/Project.html
这是 OpenAI 上线 Assistant 检索功能后,技术圈传出的部分声音。原因在于,此功能可以为用户提供基于知识库问答的 RAG(检索增强生成) 能力。而此前,大家更倾向于将向量数据库作为 RAG 方案的重要组件,以达到减少大模型出现“幻觉”的效果。
近日,“疑似超50位明星的北京“健康宝”照片被泄露一事,引发网友关注。日前,有网友通过输入明星姓名加身份证号,无需人脸识别,就可以查询到其在北京“健康宝”上的认证照片。目前智慧城市建设处表示,代查漏洞已解决。相关律师表示,对于此次出现他人“健康宝”照片泄露的问题,政府有义务督促相关公司完善系统,解决安全隐患。如果被侵权人是因为系统问题导致被侵权或受损,理论上除了向侵权方追责以外,对系统研发方也存在追责的可能。
Sonatype Nexus 安装目录为 : D:\001_Develop\043_Sonatype_Nexus\nexus-3.27.0-03-win64\nexus-3.27.0-03
以前也是有一些第三方维护的 Python 中文文档,不过可能因为人力等限制,并做不到同步更新与维护。目前也有很多高质量的 Python 中文资源,但大部分都是大牛写的书或教程,官方文档的翻译并得不到保证。
领取专属 10元无门槛券
手把手带您无忧上云