比赛链接 https://www.heywhale.com/home/competition/620b34ed28270b0017b823ad/content/3
京东商品标题包含了商品的大量关键信息,商品标题实体识别是NLP应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。本赛题要求选手使用模型抽取出商品标题文本中的实体。 与传统的实体抽取不同,京东商品标题文本的实体密度高、实体粒度细,赛题具有特色性。
👉点击下载样例(右键存储或者左键+Ctrl/command+S)
数据名称 | 数据描述 | 下载链接 |
---|---|---|
数据样例 | 初赛训练集数据样例 | 👉🏻点击下载 |
选手针对测试数据提交预测结果文件,结果文件格式和标注样本完全一致(txt格式),每一行第一列为一个字符或空格(汉字、英文字母、数字、标点符号、特殊符号、空格),第二列为BIO形式的标签,两列以空格分隔,两条标注样本之间以空行为分割。 结果文件内容举例:
Image Name
👉点击下载样例(右键存储或者左键+Ctrl/command+S)
本赛题采用实体级别的micro F1值作为排名依据。 记测试集真实标注实体结果为:G ={g1, g2, g3,…, gn}, 预测结果为S = {s1, s2, s3, …, sn},其中每个元素为实体词及其类型,按照在标题中出现的顺序排列。
Image Name
复赛阶段,将根据模型在单卡GPU(NVIDIA T4,或者同等算力的GPU卡)上的推理耗时对micro F1值进行惩罚: 1) 如果模型在单卡上单条数据的平均推理时间<math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>t</mi><mrow class="MJX-TeXAtom-ORD"><mi>i</mi><mi>n</mi><mi>f</mi><mi>e</mi><mi>r</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi></mrow></msub></math>小于360ms,不做惩罚; 2) 反之,如果<math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>t</mi><mrow class="MJX-TeXAtom-ORD"><mi>i</mi><mi>n</mi><mi>f</mi><mi>e</mi><mi>r</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi></mrow></msub></math>大于360ms,需要乘以一定的惩罚系数,具体如下:
Image Name