Trafilatura：发现和提取网络文本数据

简介

Trafilatura 是一个尖端的 Python 包和命令行工具，旨在收集网络上的文本并简化将原始 HTML 转换为结构化、有意义数据的过程。它包含了所有必要的发现和文本处理组件，以执行网络爬取、下载、抓取和提取主要内容、元数据和评论。它的目标是保持便捷和模块化：不需要数据库，输出可以转换为常用格式。

从 HTML 大块到关键部分可以缓解许多与文本质量相关的问题，通过专注于实际内容，避免由页眉和页脚等重复元素引起的噪音，并通过选择信息使数据和元数据有意义。提取器在限制噪音（精度）和包含所有有效部分（召回率）之间取得了平衡。它健壮且速度合理。

Trafilatura 被广泛使用，并集成到数千个项目中，用户包括 HuggingFace、IBM 和微软研究院等公司，以及艾伦研究所、斯坦福大学、东京工业大学和慕尼黑大学等机构。

功能

高级网络爬取和文本发现：
- 支持站点地图（TXT、XML）和订阅源（ATOM、JSON、RSS）
- 智能爬取和 URL 管理（过滤和去重）
在线和离线输入的并行处理：
- 实时 URL，高效且礼貌地处理下载队列
- 先前下载的 HTML 文件和解析的 HTML 树
健壮且可配置的关键元素提取：
- 主要内容（常见模式和通用算法，如 jusText 和 readability）
- 元数据（标题、作者、日期、站点名称、类别和标签）
- 格式和结构：段落、标题、列表、引用、代码、换行符、内联文本格式
- 可选元素：评论、链接、图像、表格
多种输出格式：
- TXT 和 Markdown
- CSV
- JSON
- HTML、XML 和 XML-TEI
可选附加功能：
- 提取内容的语言检测
- 速度优化
开源社区支持的积极维护：
- 定期更新、功能添加和优化
- 全面的文档

评估和替代方案

Trafilatura 在文本提取基准测试中始终优于其他开源库，展示了其在提取网络内容方面的效率和准确性。提取器试图在限制噪音和包含所有有效部分之间取得平衡。

更多信息请参阅基准测试部分和评估自述文件，以使用最新数据和包运行评估。

其他评估：

在 ScrapingHub 的文章提取基准测试中效率最高的开源库
根据 Bien choisir son outil d'extraction de contenu à partir du Web（Lejeune & Barbaresi 2020）评为最佳工具
在 An Empirical Comparison of Web Content Extraction Algorithms（Bevendorff et al. 2023）中，按 ROUGE-LSum Mean F1 页面得分评为最佳单一工具

使用和文档

开始使用 Trafilatura 非常简单。更多信息和详细指南，请访问 Trafilatura 的文档：

包含多种语言视频教程的 YouTube 播放列表：

网络爬取教程和操作指南

许可证

本软件包在 Apache 2.0 许可证下分发。

v1.8.0 之前的版本在 GPLv3+ 许可证下。

贡献

欢迎各种形式的贡献。访问贡献页面获取更多信息。错误报告可以提交到专门的问题页面。

非常感谢扩展文档或提交错误报告、功能和错误修复的贡献者！

背景

这项工作始于语言学与 NLP 交叉领域的博士项目，这一专业知识在多年来塑造 Trafilatura 方面发挥了重要作用。最初是为了在柏林-勃兰登堡科学院（DWDS 和 ZDL 单位）创建用于研究目的的文本数据库而启动的，该软件包继续得到维护，但其未来取决于社区的支持。

如果您重视此软件或依赖它来开发产品，请考虑赞助并为其代码库做出贡献。您在 GitHub 或 ko-fi.com 上的支持将有助于维护和增强这个受欢迎的软件包。

Trafilatura 是一个意大利词，意为拉丝，象征着精炼和转换过程。它也是面食形状形成的方式。

作者

通过软件仓库或联系页面进行询问、合作或反馈。也可以在社交网络上查看最新动态。

Barbaresi, A. Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction, Proceedings of ACL/IJCNLP 2021: System Demonstrations, 2021, p. 122-131.
Barbaresi, A. "Generic Web Content Extraction with Open-Source Software", Proceedings of KONVENS 2019, Kaleidoscope Abstracts, 2019.
Barbaresi, A. "Efficient construction of metadata-enhanced web corpora", Proceedings of the 10th Web as Corpus Workshop (WAC-X), 2016.

引用 Trafilatura

Trafilatura 在学术领域被广泛使用，主要用于数据采集。以下是引用方式：

@inproceedings{barbaresi-2021-trafilatura,
  title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
  author = "Barbaresi, Adrien",
  booktitle = "Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations",
  pages = "122--131",
  publisher = "Association for Computational Linguistics",
  url = "https://aclanthology.org/2021.acl-demo.15",
  year = 2021,
}

软件生态系统

共同开发的插件和附加软件包也为网络数据提取和分析领域做出了贡献：

相应的帖子可以在 Bits of Language 上找到。

令人印象深刻，您已经阅读到了页面末尾：感谢您的关注！

Trafilatura：发现和提取网络文本数据

简介

功能

评估和替代方案

其他评估：

使用和文档

许可证

贡献

背景

作者

引用 Trafilatura

软件生态系统

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐