网络文本提取工具添加福利群:解决AI开发者的「MCP实战痛点」
Trafilatura 是一个尖端的 Python 包和命令行工具,旨在收集网络上的文本并简化将原始 HTML 转换为结构化、有意义数据的过程。它包含了所有必要的发现和文本处理组件,以执行网络爬取、下载、抓取和提取主要内容、元数据和评论。它的目标是保持便捷和模块化:不需要数据库,输出可以转换为常用格式。
从 HTML 大块到关键部分可以缓解许多与文本质量相关的问题,通过专注于实际内容,避免由页眉和页脚等重复元素引起的噪音,并通过选择信息使数据和元数据有意义。提取器在限制噪音(精度)和包含所有有效部分(召回率)之间取得了平衡。它健壮且速度合理。
Trafilatura 被广泛使用,并集成到数千个项目中,用户包括 HuggingFace、IBM 和微软研究院等公司,以及艾伦研究所、斯坦福大学、东京工业大学和慕尼黑大学等机构。
高级网络爬取和文本发现:
在线和离线输入的并行处理:
健壮且可配置的关键元素提取:
多种输出格式:
可选附加功能:
开源社区支持的积极维护:
Trafilatura 在文本提取基准测试中始终优于其他开源库,展示了其在提取网络内容方面的效率和准确性。提取器试图在限制噪音和包含所有有效部分之间取得平衡。
更多信息请参阅基准测试部分和评估自述文件,以使用最新数据和包运行评估。
开始使用 Trafilatura 非常简单。更多信息和详细指南,请访问 Trafilatura 的文档:
包含多种语言视频教程的 YouTube 播放列表:
本软件包在 Apache 2.0 许可证下分发。
v1.8.0 之前的版本在 GPLv3+ 许可证下。
欢迎各种形式的贡献。访问贡献页面获取更多信息。错误报告可以提交到专门的问题页面。
非常感谢扩展文档或提交错误报告、功能和错误修复的贡献者!
这项工作始于语言学与 NLP 交叉领域的博士项目,这一专业知识在多年来塑造 Trafilatura 方面发挥了重要作用。最初是为了在柏林-勃兰登堡科学院(DWDS 和 ZDL 单位)创建用于研究目的的文本数据库而启动的,该软件包继续得到维护,但其未来取决于社区的支持。
如果您重视此软件或依赖它来开发产品,请考虑赞助并为其代码库做出贡献。您在 GitHub 或 ko-fi.com 上的支持将有助于维护和增强这个受欢迎的软件包。
Trafilatura 是一个意大利词,意为拉丝,象征着精炼和转换过程。它也是面食形状形成的方式。
通过软件仓库或联系页面进行询问、合作或反馈。也可以在社交网络上查看最新动态。
Trafilatura 在学术领域被广泛使用,主要用于数据采集。以下是引用方式:
@inproceedings{barbaresi-2021-trafilatura, title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}}, author = "Barbaresi, Adrien", booktitle = "Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations", pages = "122--131", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.acl-demo.15", year = 2021, }
共同开发的插件和附加软件包也为网络数据提取和分析领域做出了贡献:
相应的帖子可以在 Bits of Language 上找到。
令人印象深刻,您已经阅读到了页面末尾:感谢您的关注!