首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】IEPile - 大规模信息抽取语料库

IEPile,由浙江大学研发,是一个大规模高质量的双语(中英)信息抽取(IE)指令微调数据集,涵盖了命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)三大核心子任务。该数据集包含约200万条指令样本,总计约3.2亿Token,涵盖了通用、医学、金融等多个领域。研究团队通过精心整合26个英文和7个中文IE数据集,并采用提出的“基于schema的轮询指令构造方法”,包括构建难负样本字典和轮询式指令生成,确保了数据集的高质量。IEPile的构建显著提升了大型模型在信息抽取任务,尤其是零样本泛化能力上的表现,为信息抽取研究提供了宝贵的资源。

详情请参见五号雷达:https://www.5radar.com/

数据集地址: https://github.com/zjunlp/IEPile

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OA5AFXELw-IkwN0DEe9IH6wg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券