首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Prodigy AI标注工具v1.18更新详解

Prodigy AI标注工具v1.18更新详解

原创
作者头像
用户11764306
发布2026-01-20 10:32:04
发布2026-01-20 10:32:04
60
举报

Changelog · Prodigy

此页面列出了 Prodigy 的历史变更。每当有新的更新可用时,都会向购买时指定的邮箱地址发送邮件通知。然后您可以通过个人下载链接下载新版本。如果您的免费升级已过期,您现在可以通过我们的在线商店为您的许可证添加 12 个月的更新。请注意,您的许可证密钥为新版本激活最多可能需要 24 小时。

插件更新

我们发布了一个新插件:用于将 DSPy 编程式提示工程与 Prodigy UI 集成的 Prodigy-DSPy。该插件支持一种迭代式工作流程,其中人工反馈直接指导 DSPy 的自动提示优化。有关工作流程和可用配方的详细信息,请参阅文档,并查看我们的博客文章和教程代码以获取端到端示例。

  • new 添加 dspy.annotate 配方,用于使用 DSPy 程序预测标注数据。
  • new 添加 dspy.ner.annotate 配方,用于使用内置的 DSPy NER 程序进行命名实体识别标注。
  • new 添加 dspy.evaluate 配方,用于评估 DSPy 程序并收集关于指标性能的人工反馈。
  • new 添加 dspy.feedback 命令,用于使用 LLM 将人工反馈合成为可操作的见解。
  • new 添加 dspy.optimize 命令,用于在优化循环中集成人工反馈来优化 DSPy 程序。
  • doc 添加包含工作流程概述、配置指南和端到端示例的 Prodigy-DSPy 文档。

v1.18.4 (2025-11-24)

  • fix 修复首次加载任务时 prodigyupdate 事件未触发的问题。
  • fix 确保 prodigysave 在所有保存方法(UI 按钮、键盘快捷键和 save() JavaScript 函数)中一致地触发。
  • new 为内联嵌入的 JavaScript(URL 详情为 inline)触发 prodigyscriptload 事件。

v1.18.3 (2025-11-07)

  • fix 启用在 pages 上下文中 text_input 块的自动对焦功能。
  • fix 优化 database drop 命令使用的数据库查询,以提升大型数据集上的性能。

v1.18.2 (2025-06-04)

  • fyi 将 spaCy 依赖版本提升至 < 3.9.0
  • new 添加对 Python 3.13 的支持。

v1.18.1 (2025-04-09)

  • fyi 将 fastapi 依赖版本提升至 < 0.116.0

v1.18.0 (2025-02-24)

此版本包含用于在跨度标注期间编辑文本以及自定义单个 UI 消息和翻译的新功能。我们还通过额外的辅助函数和事件监听器改进了对自定义 JavaScript 的支持。

  • new 为跨度标注添加文本编辑功能,以及在 ner.manualspans.manual 中添加可配置事件钩子的 --edit-text 设置,以便在后端重新生成和重新分词示例。
  • new 通过 ui_lang_locale 配置设置支持自定义 UI 消息和本地化。
  • new 在 JavaScript 中暴露 window.prodigy.save 以编程方式保存进度。
  • new 添加 prodigyload JavaScript 事件(当应用挂载且自定义 JavaScript 和/或 CSS 已加载时触发)和 prodigysave 事件(当用户手动保存答案时触发)。
  • new 即使未提供自定义 JavaScript,也始终暴露 window.prodigy
  • new 添加 tokenize_example 辅助函数,用于为单个示例添加分词。
  • newfetch_media 预处理器添加 exclude_urls 参数,以保留 URL 并仅获取本地路径的 base64 数据。
  • fix 通过更改 UUID 生成方式修复前端可能出现的 crypto.randomUUID 错误。
  • fix 修复自定义 JavaScript 和 CSS 的加载,确保即使没有可用任务时也能添加。
  • doc 命名实体识别和跨度分类的文本编辑文档。
  • doc 用于配方开发和调试的“检查 Web 应用所见内容”文档。
  • doc 记录用于从任务迭代器创建 Stream 对象的 Stream.from_iterable 类方法。

v1.17.5 (2025-02-04)

  • fyi 将 uvicorn 依赖版本提升至允许 < 0.35

v1.17.4 (2025-01-07)

  • fix 确保 pages 在加载时间较长(针对大型 PDF 文件和/或较慢的机器)时不会抛出类型错误或回退到 text

v1.17.3 (2024-12-18)

  • fix 在 Server loaders 的任务中添加文件名作为文本,确保其出现在历史记录侧边栏中。
  • 插件更新
    • fyi 将 prodigy-company-plugins 包固定为 Prodigy >= 1.15.0。

v1.17.2 (2024-11-26)

  • fix 修复了版本 1.17.0 中引入的一个回归问题,即当在 choice 块配置中指定 text: None 时会抛出验证错误。

v1.17.1 (2024-11-25)

  • fix 修复 pages UI 缩略图渲染和滚动行为。
  • 插件更新
    • new Prodigy-PDF 插件中新增 pdf.spans.manualpdf.layout.fetch 配方,用于标注从 PDF 提取的文本,由 spacy-layout 和 Docling 提供支持。

v1.17.0 (2024-11-18)

此更新推出了全新的分页容器界面 pages,可将单个标注任务拆分为多个部分,甚至可以组合不同的界面,同时保持 Prodigy 基于卡片设计的简洁性和高效性。分页数据可以直接从 JSON 或简单文件格式加载,并且已经在所有相关的内置标注配方以及 Prodigy-PDF 插件中得到支持。

  • new 用于处理长文档、PDF 或图像集合等多页任务的 pages 界面。
  • new 用于加载分页文件的 Pages loader,并在相关内置配方中支持 --loader pages 和分页输入数据。
  • new 添加 split_pagesmerge_pages 预处理器,并在 traindata-to-spacy 中支持 pages
  • fix 增强任务数据的前端验证,在 UI 中提供更有用的错误消息。
  • doc 更新有关自定义界面、PDF 计算机视觉以及长文本 NER 的文档。
  • fyiblocks 中使用的 choice 配置中,现在必须将 "video" 内容显式设置为 None,以防止其被渲染两次。
  • fyi "pages""page_titles" 现在在 JSON 数据中是受保护的键(类似于 "text"),您应避免将它们用于任何非分页示例的内容。
  • fyi JSON 任务的 "meta" 中以 _ 开头的属性现在被视为内部属性,不会显示在标注界面中。
  • 插件更新
    • new Prodigy-PDF 插件中支持 pages 和 PDF 的分页加载。

v1.16.0 (2024-10-22)

在此版本中,我们移除了所有 Cython 编译的源代码,现在以跨平台 Python wheel 包的形式分发 Prodigy,这使得开发自定义配方更容易,并改善了类型检查和 IDE 支持。此更新还包括几个前端修复,例如恢复了 audio 界面的时间轴功能,并启用了 review 中版本的包装。在后端,我们重构了 drop 以缓解与 SQLITE_MAX_VARIABLE_NUMBER 相关的问题。

  • fyi Prodigy 现在作为纯 Python wheel 包分发,不包含编译的 Cython。
  • fix 恢复 audio 界面的时间轴功能。
  • fix 启用 review 界面中的版本包装功能。
  • fix 通过添加默认 accept 答案来改进 llm.fetch 系列配方。
  • fix 改进 drop 逻辑以缓解潜在的 SQLITE_MAX_VARIABLE_NUMBER 问题。
  • 插件更新
    • 我们新增了一个高级插件:用于在 Modal 的无服务器云中部署 Prodigy 的 Prodigy Modal。有关详情和示例工作流程,请参阅文档。另请查看我们最新的博客文章,了解如何构建完全自定义的信息提取管道,无需基础设施或 GPU 设置。
    • new 添加 Prodigy Modal 插件。

v1.15.8 (2024-10-03)

此补丁版本恢复了从配方返回 Controller 对象实例的可能性。

  • fix 重新启用从配方返回 Controller 对象。

v1.15.7 (2024-07-30)

此补丁版本修复了默认 textcat 和 textcat-multilabel spaCy 组件训练配置生成中的一个错误。

  • fix 修复 textcat 和 textcat-multilabel 的训练配置生成。

v1.15.6 (2024-06-19)

此补丁版本将 numpy 版本固定为 <2.0.0,以避免因 numpy 2.0.0 中引入的向后不兼容更改导致的安装问题。

  • fix 将 numpy 固定为 <2.0.0

v1.15.5 (2024-06-13)

此补丁版本更新了 wavesurfer.js 依赖的版本,修复了 audio.manual 中的一个回归问题,该问题曾阻止在光标左侧标记区域。

  • fix 恢复在 audio.manual 中向光标左侧标记区域的功能。
  • fyi 更新 wavesurfer.js 至 ^7.7.15

v1.15.4 (2024-05-23)

此补丁版本修复了 reviewrel.manualmetrics.iaa.doc 配方中的一些错误。

  • fixmetric.iaa.doc 中支持非字符串标签。
  • fix 修复 relations 中通过 _ 属性模式禁用分词的问题。
  • fix 修复 review 中的流生成,使得仅在顺序上不同的关系标注不会显示为不同。

v1.15.3 (2024-04-24)

此版本添加了对 fastapi 最高 0.111.0 版本的支持。

  • new 允许 fastapi <0.111.0
  • fix 修复 reviewaccept_single 标志未正确过滤由单个标注者标注的任务的问题。
  • fyi 使“无任务可用”屏幕信息更丰富。
  • 插件更新
    • fyi Prodigy-SSO v0.2.1:更新内部结构以使其与 fastapi <0.111 兼容。

v1.15.2 (2024-03-26)

此补丁版本将 ab.llm.tournament 配方更新至 spacy-llm >= 0.7.0

  • fixab.llm.tournament 中模型响应的处理更新至 spacy-llm >= 0.7.0
  • fyi 支持 prodigy-evaluate 插件的数据集处理内部重构。
  • 插件更新
    • Prodigy 1.15.2 版本还附带了一个新的开源插件,为您的 QA 工具集增添功能。prodigy-evaluate 提供了使用多种指标评估 spaCy 管道整体或逐例评估的命令。
    • new 用于 spaCy 管道评估的 prodigy-evaluate 插件。
    • 我们更新了 Prodigy 公司 SSO 插件,在范围定义上提供更多灵活性,使 profile 范围变为可选。如果 profile 导致网络负载过大,这会很有帮助。
    • new 使 prodigy-sso 插件的 profile 范围变为可选。

v1.15.1 (2024-02-23)

此版本通过修复一个先前阻止使用 transformer spaCy 管道作为基础模型的错误,改进了由 traintrain-curvedata-to-spacy 使用的训练配置生成。此外,分词器从基础模型的来源现在已自动化。我们还将 uvicorn 依赖版本提升至允许 <0.27

  • new 自动从基础模型获取分词器来源。
  • new 允许 uvicorn <0.27
  • fix 允许将 transformer 作为 spaCy 基础模型的嵌入层。

v1.15.0 (2024-02-15)

此版本添加了对新的 Prodigy 公司插件包的支持,该包可通过公司许可证下载。这第一个用于 SSO(单点登录)的高级插件支持跨多种提供商(包括 Auth0、Okta、Google、Microsoft Entra 等)的 OIDC 身份验证。有关新公司功能的更多详情,请参阅 OIDC 文档。

  • new 添加对 prodigy-company-license 0.1.0 的支持。

v1.14.14 (2024-01-30)

此更新允许 Prodigy 使用 spacy-llm <1.0.0,其最近新增了实体链接和翻译等新任务,以及对任意长度文档的支持。

  • new 允许 spacy-llm <1.0.0

v1.14.13 (2024-01-25)

此更新修复了从任务级别覆盖配方配置的问题,以便可以更新 view_id 属性。现在可以设计具有不同 view_id 的数据流,而无需重新启动服务器。

  • fix 现在可以从任务级别覆盖 view_id(以及其他配置属性)。
  • newmetric.iaa.span 结果表中添加了一个“Support”列,表示计算该指标所基于的示例数量。

v1.14.12 (2023-12-13)

此补丁版本恢复了 audio_rate 设置的功能。我们还把 wavesurfer.js 依赖升级到了 7.4.4,这与 show_audio_timeline 设置的弃用以及 UI 中声波渲染方式的轻微变化有关。我们也很兴奋地宣布一个新的利用 Meta 的 Segment Anything 模型进行图像分割的插件。

  • new 将 wavesurfer.js 依赖更新至 7.4.4。
  • new 在前端添加了一个新的 window.prodigy.resetQueue 方法,旨在与自定义事件一起使用。
  • fix 修复了音频配方的 audio_rate 设置。
  • fyi 由于 wavesurfer.js 升级,show_audio_timeline 设置已被弃用。
  • doc 更新自定义配方部分,包含利用 radicli 的示例。
  • 插件更新
    • 在此版本期间,我们还发布了一个新插件:Prodigy-Segment!这使您能够利用 Meta 的 segment-anything 模型从图像中选择像素。
    • 我们还为 Prodigy-ANN 和 Prodigy-LUNR 引入了新功能,允许您从 UI 重置流。
    • new 添加用于使用 Meta 的 Segment Anything 模型进行图像分割的 Prodigy-Segment 插件。
    • new 许多 Prodigy-ANN 和 Prodigy-LUNR 配方现在带有 --allow-reset 标志,允许用户从 UI 重置流。
    • doc 更新插件部分以反映新增内容。

v1.14.11 (2023-11-30)

此补丁版本添加了对 Python 3.12 的支持,并修复了与向 radicli 过渡期间引入的 prodigy.serve 功能相关的回归问题。此外,它恢复了使用 stdin 作为源的功能。

  • new 添加对 Python 3.12 的支持。
  • new 添加 Controller.reset_stream 方法,允许自定义配方重置流。
  • fix 修复 prodigy.serve 中的 CLI 参数处理,使其与 radicli 兼容。
  • fix 恢复使用 stdin 作为源。

v1.14.10 (2023-11-16)

此补丁版本修复了从 spaCy textcat 模型推断互斥标签的问题。

  • fix 修复了 spaCy textcat 模型中检查互斥标签的问题。

v1.14.9 (2023-11-14)

此补丁版本将 Prodigy 更新为使用 spacy-llm <0.7.0

  • new 允许 spacy-llm <0.7.0

v1.14.8 (2023-11-09)

此补丁版本修复了从字符串加载自定义 JavaScript 时的一个错误。

  • fix 修复了与注入内联 JavaScript 相关的错误。
  • 插件更新
    • 此版本与一个新的 prodigy-whisper 插件配对发布,该插件通过循环使用 OpenAI 的 Whisper 模型来帮助进行音频转录。文档包含了如何使用此新功能的全部详细信息。
    • new 添加 whisper.audio.transcribe 配方,用于在循环中使用模型进行音频转录。
    • newwhisper.audio.transcribe 添加 --segment 功能,以自动将音频分割成片段。

v1.14.7 (2023-11-07)

此版本为一些 textcat 配方添加了额外的验证步骤,以确保不会将空标注写入数据库。如果用户偏好原始行为,可以通过标志关闭此行为。

  • newtextcat.manualtextcat.correct 中为互斥 textcat 模型添加空标注验证。
  • newtextcat.manualtextcat.correct 添加 --accept_empty 标志以关闭新验证。
  • fix 修复 texcat.correct 中将互斥 textcat 模型误认为非互斥模型的一个错误。
  • fix 修复在 textcat 配方中将 PatternMatcher 与 nlp 模型结合时出现的运行时错误。
  • fix 纠正 stats 命令输出中 spaCy 的拼写。
  • 插件更新
    • 此版本通过 Prodigy Hugging Face 插件与新功能配对发布。从 v0.2.0 起,添加了用于文本分类以及模型在循环中使用的配方。此插件的文档也已更新。
    • new 添加用于训练文本分类 transformer 模型的 hf.train.nerhf.train.textcat 配方。
    • new 添加在使用 transformer 模型时标注新数据的 hf.correct.nerhf.correct.textcat 配方。
    • new 添加将您的标注上传到 Hugging Face Hub 的 hf.upload 配方。
    • doc 在文档中为该插件添加新部分。

v1.14.6 (2023-11-02)

此版本更新 Prodigy,使其兼容 spaCy >=3.1.1,<3.8.0 和 Pydantic >=1.10.8,<3.0

  • new 更新 spacy 和 pydantic 依赖。

v1.14.5 (2023-10-24)

此版本为 ner_manualspans_manual 添加了改进的字符高亮功能,允许在标注时从 UI 在字符和分词高亮之间切换。我们还通过添加从本地目录和远程 URL 挂载 css 和 javascript 文件的支持,简化了使用自定义 css 和 javascript 的开发过程。

  • newner_manualspans_manual UI 中添加在字符和分词高亮之间切换的开关。
  • new 支持从本地目录和远程 URL 挂载 CSS 和 JS 代码。
  • fix 修复 IAA 配方中的标注者过滤。

v1.14.4 (2023-10-12)

此补丁版本改进了错误消息,并修复了 spacy-config 中一个阻止配置正确保存到磁盘的错误。

  • fix 改进 iaa 和 stream 模块的错误消息。
  • fix 修复了将配置文件保存到磁盘时的一个问题。
  • 插件更新
    • 此版本与一些 Prodigy 插件的新功能配对发布。
    • Prodigy-PDF 从 v0.2.0 起,现在支持 pdf.image.ocr 配方。此配方为来自 pdf.image.manual 配方的标注片段添加 OCR,并提供一个文本框进行校正。此配方底层使用 pytessaract。
    • Prodigy-ANN 从 v0.2.0 起,现在支持处理图像检索的配方,除了通过 ann.image.indexann.image.fetchimage.ann.manual 的文本。
    • new 添加 pdf.image.ocr 配方。
    • new 添加 ann.image.indexann.image.fetchimage.ann.manual 配方。
    • fix 确保 pdf.image.manual 存储 OCR 所需的所有信息。
    • fix 修复了 ner.ann.manualspans.ann.manualner.lunr.manualspans.lunr.manual 配方中阻止服务器启动的错误。
    • fyipdf.image.manual 中的第一个默认颜色更改为更深的颜色以确保高对比度。

v1.14.3 (2023-10-06)

此版本添加了两个用于计算文档级别和分词级别标注的标注者间一致性的新命令。我们还引入了 Prodigy 插件:Prodigy-PDF、Prodigy-ANN 和 Prodigy-LUNR。Prodigy 插件是使用第三方库扩展 Prodigy 功能的附加组件。它们是开源的,可以单独安装以与 1.14.3 及以上版本一起使用。

  • new 文档级别和分词级别标注的标注者间一致性。
  • fyi 用于 PDF 处理和数据相关子集选择的 Prodigy 插件。
  • fix 修复侧边栏中历史记录的显示。
  • fix 修复由 prodigy 命令输出的可用配方的截断显示。
  • doc 新增关于标注者间一致性指标的部分。
  • doc 新增关于 Prodigy 插件的部分。

v1.14.2 (2023-09-29)

此补丁更新解决了版本 1.14.0 中引入的一个向后兼容性问题,即移除了 get_labels 辅助函数,可能影响自定义配方。

  • fix 为向后兼容性恢复 get_label 函数。

v1.14.1 (2023-09-29)

此版本添加了对自定义配方事件钩子的支持,以允许在自定义 Prodigy 配方中进行基本的交互。它向可用于自定义配方 JavaScript 中的 window.prodigy 对象添加了一个新的 window.prodigy.event 函数。这完成了一项我们已使用一段时间但未记录的初始功能。

  • new 通过自定义事件钩子添加对基本界面交互性的支持。

v1.14.0 (2023-09-21)

此版本专注于改进 Prodigy 内部结构。我们用 radicli 替代了 plac 用于 CLI 开发,这带来了开发体验的改进,例如使用类型提示进行参数解析,包括对自定义类型的支持以及自定义 CLI 错误。请查看 radicli 文档以获取完整的好处概述。

现在支持更高版本的 pydantic(<3.0)、fastapi(<0.103.0)和 spacy-llm(<0.6.0)依赖。由于 spacy-llm 0.5.0 添加了对思维链提示的支持,文档中现在有一个带有示例的相应部分。

我们还改进了整个 Prodigy 的类型提示和错误处理。

最后,一些较旧的、已弃用的辅助函数不再可用:

Reddit 数据集加载器、read_jsonlwrite_jsonlread_jsonb64_uri_to_bytespretty_print_nerpretty_print_tc

  • new 通过用 radicli 替代 plac 来改进 CLI。
  • new 允许使用最新版本的 pydantic、fastapi 和 spacy-llm。
  • doc 添加 LLM 部分,包含用于 NER 和 spancat 的思维链提示的解释器。
  • fyi 弃用 Reddit 加载器和较旧的辅助函数:read_jsonlwrite_jsonlread_jsonb64_uri_to_bytespretty_print_nerpretty_print_tc

v1.13.3 (2023-09-20)

此补丁版本修复了 review 配方中的一个错误,该错误阻止了在 CLI 上覆盖 view-id 属性。这在将带有 blocks view-id 的数据集作为 review 的输入时尤其相关,包括 *.llm.correct 配方的输出。

  • fix 修复了 review 中不允许为 blocks 界面覆盖 view-id 属性的错误。

v1.13.2 (2023-09-07)

此版本引入了 terms.openai.fetchab.openai.tournament 配方的 spacy-llm 变体。terms.llm.fetch 配方可以使用 LLM 生成术语和短语。ab.llm.tournament 配方可用于提示工程和/或比较不同的 LLM 后端。这意味着我们现在有了所有 *.openai.* 配方的替代品,这就是为什么它们现在都带有弃用通知。

我们还添加了一个新的标注界面 llm-io 以方便编写自定义 LLM 配方,并修复了与服务器重启相关的任务路由器错误。

  • new 添加 terms.llm.fetch,可以使用 spacy-llm 获取相关短语和术语。
  • new 添加 ab.llm.tournament,可用于提示工程和比较 LLM 后端。
  • new 添加 llm-io 界面以显示来自 LLM 的提示/响应。
  • fix 修复了在处理多次服务器重启时导致任务路由器不一致的错误。
  • fyi 所有 *.openai.* 配方现在都带有弃用警告,因为有 spacy-llm 变体可以替代它们。

v1.13.1 (2023-08-23)

此版本引入了允许 spaCy 管道自动标注示例的配方。当您将这些配方与 review 配方结合使用时,您能够专注于模型不一致的示例。

这种模式很强大,因为这些示例通常为您的模型携带大量信息。但考虑到 v1.13.0 中引入的 spaCy-LLM 集成,它也很有用,这使得将您自己的模型与 LLM 管道进行比较变得相对容易。

  • new 添加 ner.model-annotatetextcat.model-annotatespans.model-annotate 配方以使用模型自动标注数据集。
  • new 添加 make_ner_suggestionsmake_spancat_suggestionsmake_textcat_suggestions 辅助函数,以便更轻松地将 spaCy 输出转换为标注示例。
  • new 添加 filter_seen_before 辅助函数,以便更轻松地从自定义配方中的流中删除特定重复项。
  • fix 修复导致重复日志行出现的错误。
  • fix 修复与 image.manual 配方的配置验证相关的错误。
  • fyi 如果标注界面不受支持,review 配方现在在立即退出时更加明确和严格。
  • doc 新增关于审查标注的部分。

v1.13.0 (2023-08-15)

此版本引入对 spacy-llm 的支持,这为 NER、textcat 和 spancat 标注提供了更广泛的大语言模型支持。未来利用大语言模型的配方也将使用 spaCy-LLM 后端,OpenAI 配方将被弃用。

  • new 添加基于 spacy-llm 的 NER 和 Textcat 的 OpenAI 工作流替代品,包括 ner.llm.correctner.llm.fetchtextcat.llm.correcttextcat.llm.fetch 配方。
  • new 通过 spans.llm.correctspans.llm.fetch 配方为 Spancat 任务引入 LLM 支持。
  • fyi Prodigy 未来将弃用 *.openai.* 配方,因为 OpenAI 端存在弃用。这些配方都将被使用 spaCy LLM 作为后端的 *.llm.* 变体替代。
  • doc 更新大语言模型部分。

v1.12.7 (2023-08-10)

此版本修复了 DatasetSourceGeneratorSourceListSource 由于位置重置不正确而在迭代结束时可能处于错误状态的问题。这也会导致进度条更新异常。

  • fix 在关闭 DatasetSourceGeneratorSourceListSource 时移除位置重置。

v1.12.6 (2023-08-08)

此版本修复了批量数据库操作期间间歇性的 MySQL 完整性错误。

  • fix 移除批量插入数据库操作,使操作更稳定。

v1.12.5 (2023-07-28)

此版本在新的 get_stream 实用程序中添加了对旧版(1.12.X 之前)加载器的临时支持。它还修复了一些小的 CLI 和配置处理错误。我们还改进了缺少数据库驱动程序时的错误消息。

  • fixget_stream 实用程序中添加对旧版(1.12.X 之前)加载器的支持。
  • fix 修复数据集源 CLI 中 :ignore:accept:reject 后缀的处理。
  • fix 改进缺少数据库驱动程序时的错误消息。
  • fix 修复旧版 CSV 加载器中 delimiter 参数的支持。
  • fix 修复 rel.manual 配方中 hide_arrow_headshide_true_newline_token 配置设置的处理。

v1.12.4 (2023-07-19)

此版本包含针对前端的一个额外错误修复。

  • fix 修复 image_manual 视图中无法选择单个图像跨度的问题(适用于多边形和自由手绘工具)。这建立在 v1.12.3 中仅修复了使用矩形工具标注的图像跨度选择的修复之上。

v1.12.3 (2023-07-17)

此版本包含针对前端的重大错误修复,以及一个关于任务路由的额外视频文档:

  • fix 修复 image_manual 视图中无法选择单个图像跨度的问题。
  • fix 修复“保存”按钮可能被点击两次并将重复答案保存到数据库的问题。
  • fix 修复前端可能渲染 br 元素的问题。
  • doc 添加关于 Database.get_hashesDatabase.count_dataset 数据库方法的文档。
  • doc 添加一个关于任务路由的新视频,深入探讨如何构建自己的任务路由器。

v1.12.2 (2023-07-13)

修复了在使用 Prodigy 数据集作为音频或图像配方源时,使用 dataset:my_dataset_name 语法时出现的错误。

  • fix 修复将数据集用作音频或图像配方源时的 FileNotFoundError
  • doc 修复与会话 ID 相关的不一致。

v1.12.1 (2023-07-12)

此更新添加了对最新 spaCy 版本的支持。

  • new 将 spaCy 支持扩展到最新的 v3.6。

v1.12.0 (2023-07-05)

对于此版本,我们完全重构了 Prodigy 的内部结构,以使标注流程更易于追踪和定制。我们重新实现了 Controller,并添加了新的抽象来更好地表示任务流和输入源。这使我们能够交付一系列新的、令人兴奋的功能,例如部分可配置的反馈重叠、自定义任务路由器、自定义会话工厂、基于源的进度估计、对 Parquet 输入文件的支持、在 train 中训练 coref 组件的实验性支持、新的 filter-by-patterns 配方以及开发体验改进。

v1.12 还为数据标注和提示工程提供了 LLM 辅助工作流的支持。我们提供了 4 个用于引导 NER 和 Textcat 标注的新配方,1 个用于术语生成,2 个用于提示工程,包括一个非常有创意的 ab.openai.tournament 配方。从这个版本开始,我们支持 python 3.11,并放弃了对 python 3.7 的支持。

感谢所有通过测试 alpha 版本帮助我们的人。有关新功能的完整列表,请参阅下面的变更日志。

  • new 添加新的 Controller 以方便标注工作流程定制。
  • new 添加对任务路由的支持,允许您自定义谁标注每个示例。
  • new 添加 annotations_per_task 设置,以轻松配置部分标注者重叠的任务路由器。
  • new 将一系列任务路由器添加到公共 API,可在自定义配方中使用。
  • new 为自定义配方添加 session_factory 回调,让您可以控制会话的创建方式。
  • new 添加对 spacy-experimental coref 组件在 traintrain-curve 配方中的支持。
  • new 所有 Prodigy 的内部配方现在都支持 .parquet 文件格式作为数据源。
  • new 在 prodigy.json 中添加 allow_work_stealing 设置,允许您关闭工作窃取。
  • new 添加 PRODIGY_LOG_LOCALS 环境变量,以便在调试 Prodigy 错误消息时提供局部变量。
  • new 向数据库类添加 get_hash_countget_hashes_min_cardinality 方法,这在自定义任务路由器中很有用。
  • new review 配方现在提供 --accept-single 标志,以便在同时打开 --auto-accept 时也自动接受来自单个标注者的标注。
  • new 添加一个新的 filter-by-patterns 配方,可以使用匹配模式为下游任务生成相关子集。
  • new 通过 ner.openai.correctner.openai.fetchtextcat.openai.correcttextcat.openai.fetch 配方添加对使用 OpenAI 的大语言模型作为循环中的模型进行标注工作流的支持。
  • new 通过 terms.openai.fetch 配方添加对使用 OpenAI 的大语言模型生成模式文件的支持。
  • new 通过 ab.openai.promptsab.openai.tournament 配方添加对提示工程配方的支持。
  • new 添加基于源对象中相对位置的新进度计算。
  • new 在 UI 中区分目标进度和源进度。
  • fix 修复 NER 配方中与 allow_newline_highlight 设置相关的错误。
  • fix 修复 mark 配方中与多标签相关的错误。
  • fix 修复 choice 界面中与多标签相关的错误。
  • fix 修复与会话名称中尾部斜杠相关的错误。Prodigy 现在将忽略尾部斜杠。
  • fix 当用户需要通过 URL 提供 /?session= 时,添加更有帮助的错误消息。
  • fyi 移除 auto_count_stream

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Changelog · Prodigy
    • 插件更新
    • v1.18.4 (2025-11-24)
    • v1.18.3 (2025-11-07)
    • v1.18.2 (2025-06-04)
    • v1.18.1 (2025-04-09)
    • v1.18.0 (2025-02-24)
    • v1.17.5 (2025-02-04)
    • v1.17.4 (2025-01-07)
    • v1.17.3 (2024-12-18)
    • v1.17.2 (2024-11-26)
    • v1.17.1 (2024-11-25)
    • v1.17.0 (2024-11-18)
    • v1.16.0 (2024-10-22)
    • v1.15.8 (2024-10-03)
    • v1.15.7 (2024-07-30)
    • v1.15.6 (2024-06-19)
    • v1.15.5 (2024-06-13)
    • v1.15.4 (2024-05-23)
    • v1.15.3 (2024-04-24)
    • v1.15.2 (2024-03-26)
    • v1.15.1 (2024-02-23)
    • v1.15.0 (2024-02-15)
    • v1.14.14 (2024-01-30)
    • v1.14.13 (2024-01-25)
    • v1.14.12 (2023-12-13)
    • v1.14.11 (2023-11-30)
    • v1.14.10 (2023-11-16)
    • v1.14.9 (2023-11-14)
    • v1.14.8 (2023-11-09)
    • v1.14.7 (2023-11-07)
    • v1.14.6 (2023-11-02)
    • v1.14.5 (2023-10-24)
    • v1.14.4 (2023-10-12)
    • v1.14.3 (2023-10-06)
    • v1.14.2 (2023-09-29)
    • v1.14.1 (2023-09-29)
    • v1.14.0 (2023-09-21)
    • v1.13.3 (2023-09-20)
    • v1.13.2 (2023-09-07)
    • v1.13.1 (2023-08-23)
    • v1.13.0 (2023-08-15)
    • v1.12.7 (2023-08-10)
    • v1.12.6 (2023-08-08)
    • v1.12.5 (2023-07-28)
    • v1.12.4 (2023-07-19)
    • v1.12.3 (2023-07-17)
    • v1.12.2 (2023-07-13)
    • v1.12.1 (2023-07-12)
    • v1.12.0 (2023-07-05)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档