首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

推荐一款离线OCR识别开源软件

批量:可批量导入处理图片,结果保存到本地 txt / md / jsonl 多种格式文件。也可以即时截屏识别。 高效:采用 PaddleOCR-json C++ 识别引擎。...截图识别 点击截图按钮自定义快捷键,唤起截图识别。 粘贴图片到软件 在任何地方(文件管理器,网页,微信)复制图片,软件上点击粘贴按钮,自动识别。...批量识别本地图片文件 图片文件夹拖进软件,批量转换文字。也可以点击按钮打开浏览窗口导入。 识别结果存到本地。...虽然Paddle官方文档说经过压缩剪枝蒸馏量化的slim版模型的性能指标会超过传统算法,但实测 v3 slim 模型的性能远不如原始版本,还可能伴随着内存泄漏的问题。...在问题解决之前,Umi-OCR发行版提供原始版本模型

7.2K40

4k Star国产开源免费文字识别工具,强的很,适用于 Windows10,11 平台

大量的影视和游戏截图需要整理归档,或者想翻找包含某一段台词/字幕的截图;这些图片提取出文字、然后Ctrl+F是一个很有效的方法。这是开发本软件的初衷。...支持更换Paddle官方模型(兼容v2和v3版本)自己训练的模型,支持修改PPOCR各项参数。通过添加不同的语言模型,软件可识别多国语言。 简单上手 准备 下载压缩包并解压全部文件即可。...截图识别 点击截图按钮自定义快捷键,唤起截图识别。 粘贴图片到软件 在任何地方(文件管理器,网页,微信)复制图片,软件上点击粘贴按钮,自动识别。...批量识别本地图片文件 图片文件夹拖进软件,批量转换文字。也可以点击按钮打开浏览窗口导入。 识别结果存到本地。...点击 设置 选项卡的 打开忽略区域编辑器 ,进入编辑器窗口。 任意图片 拖入 窗口,可预览图片。新图片拖入窗口可切换预览,但已绘制的忽略区域不会消失;可切换不同图片来仔细调整忽略区域。

2.4K10
您找到你想要的搜索结果了吗?
是的
没有找到

基于InternLM和LangChain搭建自己的知识库

正常情况下,其会自动互联网上下载,但可能由于网络原因会导致下载中断,此处我们可以国内仓库镜像地址下载相关资源,保存到服务器上。...得到所有目标文件路径之后,我们可以使用 LangChain 提供的 FileLoader 对象来加载目标文件,得到由目标文件解析出的文本内容。...由于不同类型的文件需要对应不同的 FileLoader,我们判断目标文件类型,并针对性调用对应类型的 FileLoader,同时,调用 FileLoader 对象的 load 方法来得到加载之后的文本对象...构建向量数据库 得到列表之后,我们就可以将它引入到 LangChain 框架构建向量数据库。由文本对象构建向量数据库,我们需要先对文本进行分块,接着对文本块进行向量化。...目录保存到磁盘上 ) # 加载的向量数据库持久化到磁盘上 vectordb.persist() 可以在 /root/data 下新建一个 demo目录,将该脚本和后续脚本均放在目录下运行。

46210

脚本化HTTP 取得响应 指定请求

即这种的跨域可以不受到同源的限制 ajax的x ajax的x为xml为一种可选的通信方式,也可以使用JSON完成通信。...指定请求 指定请求使用的是request.open(),此方法将会初始化一个请求js代码调用。...当请求对服务器没有任何副作用以及当服务器的响应可缓存的时候,使用GET。对于POST来说,常常用于HTML表单,它在请求主体包含额外数据,即表单数据,且这些数据常常储存到服务器的数据库。...;charset=utf-8'); // 请求主体将是文本 request.send(msg); // 请求完成,我们忽略任何响应和任何错误 } 即上方定义了一个post请求,完成其发送,等待其服务器响应...,方式为异步的,send方法不会阻塞其他操作 同步响应 由于其下载的问题,一般异步处理HTTP响应,但是同步也可以,不过由于客户端js为单线程的,当send()方法阻塞以后,将会导致浏览器的ui被冻结

1.4K40

ControlNet WebUI:稳定扩散全新体验 | 开源日报 No.94

总结来说,Vim 是一款功能强大、稳定可靠的文本编辑器,适用于各种编程和文本文件的编辑。无论您是初学者还是经验的开发人员,都可以 Vim 的丰富特性受益,并提高工作效率。...引用仅作参考的控制方法,无需任何控制模型。 此外,该项目还提供了用户友好的 GUI 界面、预处理器预览等特性,并且可以通过 API 外部调用进行任务提交。...可以通过链接 L2 其他分片链与父链关联起来。 支持添加 status 字段对某些已废弃正在孵化的链进行标记。...此外,还有一些聚合 json 文件可以自动汇总所有可用的 chains 信息,并提供 miniaturized 版本。...可扩展:除了支持从头开始训练 Llama 2 模型外,还可以加载、微调并对 Meta's Llama 2 进行推断。

9010

【D3使用教程】(1) 开始 | 加载数据

一、数据 (1)引言 在可视化编程的语境下,数据保存在数字化文件,一般是文本格式二进制格式。...当然,并不是只有文本内容才算数据,那些表示图像、音频、视频、数据库、流、模型、文档等一切比特和字节也是数据。 对于D3和浏览器可视化的角度来说,我们只讨论文本数据。即那些可以表现为数值字符串的东西。...如果你可以把数据保存到.txt文本文件,或者.csv逗号分隔值文件,或者.json文件,那么D3就能使用它。 用D3术语来说,数据必须绑定到页面的元素上。形象地说,就是数据要附着在东西上。...在D3可以通过以下函数来加载csv文件: d3.csv(path,function(data){ console.log(data); }); 控制台面板,我们可以看到数据保存在数组,且有...如果D3发现它是一个函数,就会调用它,同时当前数据值d作为参数传进去。 任何情况下,没有那个函数,D3无法把当前数据值传出来。此时,可怕的事就会发生-_->。

23930

GPT 官方最佳实践指南

模型可以更可靠地生成具有特定数量的段落要点的输出。 用户 用大约 50 个单词总结由三重引号分隔的文本。"""...通过跟踪状态,哪些指令与状态相关,以及可选地允许状态进行哪些状态转换,我们可以为用户体验设置护栏,而这很难通过结构化程度较低的方法实现。 测试结果: 问题: 我需要让我的互联网重新工作。...这个问题多种解决方法,其中之一是总结对话的先前回合。一旦输入的大小达到预定的阈值长度,这可能会触发一个查询,查询总结了部分对话,并且先前对话的摘要可以作为系统消息的一部分包含在内。...第 3 步:输出结构如下的 JSON 对象:{ "重叠类型": "无交集" "相等" "子集" "超集" "交集", "矛盾": "矛盾" "非矛盾" } 回答: 第 1 步:逐步推理提交的答案的信息与专家答案相比是否是...第 2 步:逐步推理提交的答案是否与专家答案的任何方面相矛盾。 在这个步骤,我们需要比较提交的答案和专家答案,查看它们是否任何直接的冲突矛盾。

91200

赠书 | 新手指南——如何通过HuggingFace Transformer整合表格数据

如今,我们常常会遇到这样的情形:我们手中有了表格特征信息和非结构化文本数据,然后发现,如果这些表格数据应用到模型的话,可以进一步提高模型性能。...目前,使用非结构化文本数据的transformer模型已经为大众所熟知了。然而,在现实生活文本数据往往是建立在大量结构化数据其他非结构化数据(音频视觉信息)的基础之上的。...我们这些体验数据(音频、视频文本)的不同方式称为模态。 以电商评论为例。除了评论文本本身之外,还可以通过数字和分类特征来获取卖家、买家以及产品的相关信息。...这里,我们还要指定表格特性与文本特性的结合方式。在本例,我们将使用加权和的方法。 在设置好tabular_config集之后,我们就可以使用与HuggingFace相同的API来加载模型。...不难看出,相比于文本方法,表格特征的加入有助于提高性能。此外,表格数据的训练信号越强,性能越好。例如,在评论推荐案例文本模型就已经是非常强大的基线了。 ?

1.4K20

[学习}28 款 GitHub 最流行的开源机器学习项目

:分类、回归、聚类、数据降维、模型选择、数据预处理,具体可以参考官方网站上的文档。...采集数据很简单,但判决难度却很大,而H2O却通过更快捷、更优化的预测模型,能够更加简单迅速地数据获得深刻见解。   0xdata H2O的算法是面向业务流程——欺诈趋势预测。...使用者可从浏览器访问,也可利用任何能够发送HTTP请求的语言工具进行访问。   Oryx的定位不是机器学习算法的程序库,Owen关注的重点四个:回归、分类、集群和协作式过滤(也就是推荐)。...Decider内置了对文本和URI、填充词汇、停止词删除、字格等的支持,以上这些都可以很容易地在选项组合。Decider 可支持Ruby任何可用的存储机制。...如果你喜欢,可以存到数据库,实现分布式分类。   Decider几个基准,也兼作集成测试。这些都是定期运行并用于查明CPU和RAM的瓶颈。

1.2K80

特征工程(二) :文本数据的展开、过滤和分块

对于文本数据,我们可以称为 BOW 的字数统计开始。字数统计表并没有特别费力来寻找"Emma"乌鸦这样有趣的实体。...更复杂的文本特征化方法 word2vec 也适用于句子段落。在这些情况下,需要首先将文档解析为句子,然后每个句子进一步标记为单词。...字符串对象 字符串对象各种编码, ASCII Unicode。英文文本可以用 ASCII 编码。 一般语言需要 Unicode。...但是,如何文本中发现并提取它们呢?一种方法是预先定义它们。如果我们努力尝试,我们可能会找到各种语言的全面成语列表,我们可以通过文本查看任何匹配。这将是非常昂贵的,但它会工作。...关键的想法是看两个单词是否经常出现在一起。回答这个问题的统计机制被称为假设检验。 假设检验是噪音数据归结为“是”“否”的答案。它涉及数据建模为随机分布抽取的样本。

1.9K10

Python - 100天从新手到大师|D8-D14学习笔记

,现在已经被广泛的应用于跨平台跨语言的数据交换,原因很简单,因为JSON也是文本任何系统任何编程语言处理文本都是没有问题的。...目前JSON基本上已经取代了XML作为异构系统间交换数据的事实标准。 在Python,我们可以把一个列表一个字典的数据以JSON格式保存到文件。.../ False true / false None null json模块主要有四个比较重要的函数,分别是: dump - Python对象按照JSON格式序列化到文件 dumps - Python...如果需要为flags参数指定多个值,可以使用按位运算符进行叠加,flags=re.I | re.M 13.进程和线程 这个整篇读完还是有点懵。...14.网络编程入门和网络应用开发 TCP/IP是一个四层模型,也就是说,模型将我们使用的网络逻辑上分解为四个层次,自底向上依次是:网络接口层、网络层、传输层和应用层,如下图所示。

99120

GPT-4 重磅发布,哪些升级和变化?

GPT-4 是 OpenAI 花了 6 个月的时间,利用对抗性测试程序和 ChatGPT 积累的经验迭代调整,模型尽管远非完美,但模型“比以往任何时候都更具创造性和协作性”,并且“可以更准确地解决难题...获得访问权限后,您可以向 gpt-4 模型发出文本请求(图像输入仍处于有限的 alpha 阶段)定价为每 1k 个 prompt token 0.03 美元和每 1k 个生成 token 0.06 美元...GPT-4 可以接受文本和图像输入,允许用户指定任何视觉语言任务,包括带有文本和照片的文档、图表屏幕截图等,GPT-4 展示了与文本输入类似的功能,生成文本输出。...官网提到了还可以通过为文本语言模型开发的测试时技术(包括 few-shot 和 prompt)来增强。...与此同时通过与外部研究人员合作,来改进理解和评估潜在影响的方式,以及对未来系统可能出现的危险功能进行评估。 8、GPT4 训练流程 官方资料没有讲模型参数和数据规模,没有讲任何技术原理。

1.3K60

Quora Question Pairs 竞赛冠军经验分享:采用 4 层堆叠,经典模型比较给力

AI 研习社按:今天要介绍的比赛是 Quora Question Pairs,比赛的目的是具有相同意图的问题正确配对。...我们尝试了不同的图结构:我们构建了无向图和向图(边问题 1 指向问题 2),我们也试图问题 1 的密度特征问题 2 的特征中分离出来,除了可交换的特征之外还产生了不可交换特征。...我们使用预训练的 FastText 和 Glove 嵌入,并设置 trainable=False,因为我们曾经尝试过微调模型参数,但并没有获得任何性能提高。...最终,我们证明了在文本序列和我们的图/文本挖掘特征上训练的神经网络是性能最好的单一模型。我们还尝试在字符层级上训练孪生模型,以进一步提高堆叠的多样性,但是很难判断它是否真的有用。...分类算法(ET、RF、KNN等等) 层 2:大约使用了 150 个模型: 所有输入特征 以上所有算法的预测结果 我们添加了最好的 L1 文本 ESIM 模型的隐藏层 层 3:2 个线性模型 以最小的

1.2K110

WebMonitor 实时监控网页变化,并发送通知程序

, 可以使用 JsonPath 提取数据, 具体教程参考 https://goessner.net/articles/JsonPath/ 在Chrome F12开发者工具,也可以找到对应元素,然后右键元素...是否选择无头浏览器 如果源网页没有异步加载可以不使用无头浏览器获取网页 建议先选择不使用,假如提交时提示获取不到文本信息,再使用无头浏览器尝试 正则表达式 如果获取到的文本信息冗余,可以采用正则进一步筛选...文本发生变化且相较于旧值,数值增长超过3 如果文本内容不是数字,请用正则提取出数字,否则将会报错 -increase 3 -decrease 文本发生变化且相较于旧值,数值减少超过3 如果文本内容不是数字...文本发生变化且小于某个值,数值小于3 如果文本内容不是数字,请用正则提取出数字,否则将会报错 -less 3 -more 文本发生变化且大于某个值,数值大于3 如果文本内容不是数字,请用正则提取出数字...,在数据表发生变化的情况下,外键id可能失效无法和导出时保持一致,建议每次导入任务数据后检查通知方式是否正常。

10.7K32

使用 LlamaIndex 和 Llama 2-Chat 构建知识驱动的对话应用程序

使用 LlamaIndex 和 Llama 2-Chat 构建知识驱动的对话应用程序 大量文本解锁准确且富有洞察力的答案是大型语言模型 (LLM) 所实现的一项令人兴奋的功能。...LLM可以通过输入一些原始文本并运行函数来测试ContentHandler函数和端点是否按预期工作embeddings.embed_query(text)。...top_p – 指模型在生成输出时可以保留的令牌的累积概率 温度– 指模型生成的输出的随机性。温度大于 0 等于 1 会增加随机性级别,而温度为 0 生成最有可能的标记。...实例化加载器并加载文档: 此步骤初始化加载器类和任何所需的配置,例如是否忽略隐藏文件。有关更多详细信息,请参阅SimpleDirectoryReader。...该加载器旨在数据加载到 LlamaIndex 随后作为LangChain 代理的工具。这为LLM提供了更多功能和灵活性,可以将其用作应用程序的一部分。

300

谷歌最强NLP模型BERT官方代码来了!GitHub一天3000星

论文发布以来,BERT在NLP业内引起巨大反响,被认为开启了NLP的新时代。 BERT的官方代码终于来了!...BERT是一种预训练语言表示(language representations)的方法,意思是我们在一个大型文本语料库(比如维基百科)上训练一个通用的“语言理解”模型,然后这个模型用于我们关心的下游NLP...无监督意味着BERT只使用文本语料库进行训练,这很重要,因为网络上有大量的公开的文本数据,而且是多语言的。...Labels: [MASK1] = store; [MASK2] = gallon 为了学习句子之间的关系,我们还训练了一个可以任何单语语料库生成的简单任务:给定两个句子A和B, 让模型判断B是A的下一个句子...以下是运行数据生成的方法。输入是文本文件,每行一个句子。(在“下一句预测”任务,这些需要是实际的句子)。文件用空行分隔。

1.2K30

zookeeper思考与总结1:在其它组件的作用及hdfs对比

当有事件导致node数据,例如:变更,增加,删除时,Zookeeper就会调用 triggerWatch方法,判断当前的path来是否对应的监听者(watcher),如果有watcher,会触发其process...方法,执行process方法的业务逻辑. 2.zookeeper的应用 zookeeper在kafka的作用 kafkazookeeper做小型数据库这里我们进入zookeeper看下保存的kafka...ZooKeeper 使得整个storm集群十分的健壮,任何一台工作机器挂掉都没有关系,只要重启然后zookeeper上面重新获取状态信息就可以了。...进入hdfs [Bash shell] 文本查看 复制代码 ? bin/start-dfs.sh 进入之后,二者都可以进行shell操作,二者操作一些相似之处。...clojure的protocol可以看成java的接口,封装了一组方法

1K50

最全Python数据工具箱:标准库、第三方库和外部工具都在这里了

[Python标准库]Python对象与json对象的转换 ★★★ base64 [Python标准库]任意二进制字符串编码和解码为文本字符串的Base16,Base32和Base64 ★★★...目前已经超过50种语料库和词汇资源 ★★★ pattern [第三方库]Pattern是一个网络数据挖掘Python工具包,提供了用于网络挖掘(网络服务、网络爬虫等)、自然语言处理(词性标注、情感分析等...)、机器学习(向量空间模型、分类模型等)、图形化的网络分析模型 ★★★ gensim [第三方库]Gensim是一个专业的主题模型(发掘文字隐含主题的一种统计建模方法)Python工具包,用来提供可扩展统计语义...库/函数 描述 推荐度 TimeSide [第三方库] TimeSide是一个能够进行音频分析、成像、转码、流媒体和标签处理的Python框架,可以任何音频视频内容非常大的数据集进行复杂的处理 ★★...库/函数 描述 推荐度 Scikit-Learn [第三方库]scikit-learn(也称SKlearn)是一个基于Python的机器学习综合库,内置监督式学习和非监督式学习机器学习方法,包括各种回归

6.3K31

使用BERT和TensorFlow构建多标签文本分类器

例如: 文本可能同时涉及任何宗教,政治,金融教育,也可能不属于任何一种。 电影可以根据其摘要内容分为动作,喜剧和浪漫类型。可能电影属于romcoms [浪漫与喜剧]等多种类型。...它与多类分类问题什么不同? 在多级分类,每个样本被分配给一个且仅一个标签:水果可以是苹果梨,但不能同时是两者。让我们考虑一个三个类的例子C = [“Sun,”Moon,Cloud“]。...然而,与以前的模型不同,BERT是第一个深度双向,无监督的语言表示,仅使用文本语料库(Wikipedia)进行预训练。...例如: 前向,后向和蒙面语言建模 BERT还学习通过预训练来模拟句子之间的关系,这可以任何文本语料库中生成:给定两个句子A和B,B是在语料库A之后出现的实际下一个句子,或者只是一个随意的句子?...两种方法可以下载和使用预先训练的BERT模型: 1.直接使用tensorflow-hub: 以下预训练模型可供选择。

10.4K41

python官方库和第三方库_网络爬虫第三方库

今天小编就带你看下Python哪些常用第三库吧, 知道且用过超过10个的欢迎留言~ 文本处理与格式转换 Chardet 字符编码探测器,可以自动检测文本、网页、xml的编码。...通过pickle模块的序列化操作我们能够程序运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够文件创建上一次程序保存的对象。...例如在我们熟悉的NLTK,分类器方面就有专门针对scikit-learn的接口,可以调用scikit-learn的分类算法以及训练数据来训练分类器模型。...opengraph,OpenGraphProtocol协议解析模块,textract,任何文件,Word,PowerPoint,PDF文件中提取文本,等。...发现本站涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站立刻删除。

1.7K20
领券