首页
学习
活动
专区
圈层
工具
发布
MCP广场 >详情页
网络文本提取工具2026-06-08361分享添加福利群:解决AI开发者的「MCP实战痛点」
**摘要:** Trafilatura是一个Python库和命令行工具,专注于从网页中高效提取结构化文本数据,支持网络爬取、内容发现及元数据提取(如标题、作者、评论等)。其核心功能包括智能过滤噪音(如页眉页脚)、多格式输出(TXT/JSON/XML等)及高精度内容识别,在学术和工业领域(如HuggingFace、IBM)广泛应用,以平衡提取速度与数据质量著称。
By adbar
2026-06-08361
github
详情内容

Trafilatura:发现和提取网络文本数据


Trafilatura Logo

Python package Python versions Documentation Status Code Coverage Downloads Reference DOI: 10.18653/v1/2021.acl-demo.15


Demo as GIF image

简介

Trafilatura 是一个尖端的 Python 包和命令行工具,旨在收集网络上的文本并简化将原始 HTML 转换为结构化、有意义数据的过程。它包含了所有必要的发现和文本处理组件,以执行网络爬取、下载、抓取和提取主要内容、元数据和评论。它的目标是保持便捷和模块化:不需要数据库,输出可以转换为常用格式。

从 HTML 大块到关键部分可以缓解许多与文本质量相关的问题,通过专注于实际内容避免由页眉和页脚等重复元素引起的噪音,并通过选择信息使数据和元数据有意义。提取器在限制噪音(精度)和包含所有有效部分(召回率)之间取得了平衡。它健壮且速度合理

Trafilatura 被广泛使用,并集成到数千个项目中,用户包括 HuggingFace、IBM 和微软研究院等公司,以及艾伦研究所、斯坦福大学、东京工业大学和慕尼黑大学等机构。

功能

  • 高级网络爬取和文本发现:

    • 支持站点地图(TXT、XML)和订阅源(ATOM、JSON、RSS)
    • 智能爬取和 URL 管理(过滤和去重)
  • 在线和离线输入的并行处理:

    • 实时 URL,高效且礼貌地处理下载队列
    • 先前下载的 HTML 文件和解析的 HTML 树
  • 健壮且可配置的关键元素提取:

    • 主要内容(常见模式和通用算法,如 jusText 和 readability)
    • 元数据(标题、作者、日期、站点名称、类别和标签)
    • 格式和结构:段落、标题、列表、引用、代码、换行符、内联文本格式
    • 可选元素:评论、链接、图像、表格
  • 多种输出格式:

    • TXT 和 Markdown
    • CSV
    • JSON
    • HTML、XML 和 XML-TEI
  • 可选附加功能:

    • 提取内容的语言检测
    • 速度优化
  • 开源社区支持的积极维护:

    • 定期更新、功能添加和优化
    • 全面的文档

评估和替代方案

Trafilatura 在文本提取基准测试中始终优于其他开源库,展示了其在提取网络内容方面的效率和准确性。提取器试图在限制噪音和包含所有有效部分之间取得平衡。

更多信息请参阅基准测试部分评估自述文件,以使用最新数据和包运行评估。

其他评估:

使用和文档

开始使用 Trafilatura 非常简单。更多信息和详细指南,请访问 Trafilatura 的文档

包含多种语言视频教程的 YouTube 播放列表:

许可证

本软件包在 Apache 2.0 许可证下分发。

v1.8.0 之前的版本在 GPLv3+ 许可证下。

贡献

欢迎各种形式的贡献。访问贡献页面获取更多信息。错误报告可以提交到专门的问题页面

非常感谢扩展文档或提交错误报告、功能和错误修复的贡献者

背景

这项工作始于语言学与 NLP 交叉领域的博士项目,这一专业知识在多年来塑造 Trafilatura 方面发挥了重要作用。最初是为了在柏林-勃兰登堡科学院(DWDS 和 ZDL 单位)创建用于研究目的的文本数据库而启动的,该软件包继续得到维护,但其未来取决于社区的支持。

如果您重视此软件或依赖它来开发产品,请考虑赞助并为其代码库做出贡献。您在 GitHubko-fi.com 上的支持将有助于维护和增强这个受欢迎的软件包。

Trafilatura 是一个意大利词,意为拉丝,象征着精炼和转换过程。它也是面食形状形成的方式。

作者

通过软件仓库或联系页面进行询问、合作或反馈。也可以在社交网络上查看最新动态。

引用 Trafilatura

Trafilatura 在学术领域被广泛使用,主要用于数据采集。以下是引用方式:

Reference DOI: 10.18653/v1/2021.acl-demo.15 Zenodo archive DOI: 10.5281/zenodo.3460969

@inproceedings{barbaresi-2021-trafilatura,
  title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
  author = "Barbaresi, Adrien",
  booktitle = "Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations",
  pages = "122--131",
  publisher = "Association for Computational Linguistics",
  url = "https://aclanthology.org/2021.acl-demo.15",
  year = 2021,
}

软件生态系统

共同开发的插件和附加软件包也为网络数据提取和分析领域做出了贡献:

Software ecosystem

相应的帖子可以在 Bits of Language 上找到。

令人印象深刻,您已经阅读到了页面末尾:感谢您的关注!

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档