首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】US-PD-Books - 美国公共领域图书数据集

美国公共领域英文图书数据集,由Sebastian Majstorovic编制,囊括逾65万册图书,总计约610亿字。该数据集源自互联网档案馆(IA)的数字化成果,作为开放图书馆(OL)项目的一部分,仅选取与OL记录相匹配的文本。数据集总大小约400GB,压缩后的Parquet格式约220GB,每个文件最多包含2000本图书。元数据涵盖书名、作者、出版年份及IA与OL的标识符,支持进一步信息拓展。图书以英语为主,亦含多语种,未来计划扩展至其他语言。由于OCR处理的文本质量参差不齐,后续版本拟引入质量评分及LLMs校正文本。

详情请参见五号雷达:https://www.5radar.com/

数据集地址: https://huggingface.co/datasets/storytracer/US-PD-Books

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O8fKQ-E76H92QnPdd9AzSGJw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券