前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >短文本识别说明文档

短文本识别说明文档

作者头像
DC童生
发布2022-04-02 15:24:07
1.3K0
发布2022-04-02 15:24:07
举报
文章被收录于专栏:机器学习原理机器学习原理

任务目标

主要目标是针对临床试验筛选标准进行分类,所有文本数据均来自于真实临床试验,短文本数据来源于中文临床试验注册网站(http://chictr.org.cn/)的临床试验公示信息中的筛选标准模块。数据公开透明,官网也提供下载链接。

任务说明

短文本分类标注以及示例如下:

评价指标

本任务的评价指标使用宏观F1值(Macro-F1,或称Average-F1)。最终排名以Macro-F1值为基准。假设我们有n个类别,C1, … …, Ci, … …, Cn。 准确率Pi = 正确预测为类别Ci的样本个数 / 预测为Ci类的样本个数。 召回率Ri = 正确预测为类别Ci的样本个数 / 真实的Ci类的样本个数。

模型介绍

试验过程

运行设备

NVIDIA-SMI 430.26 Driver Version: 430.26 CUDA Version: 10.2 GPU: Tesla P100 * 2 显存:36GB CPU:7核 Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz 内存:120GB 硬盘:2T SSD

运行环境

Python 3.8.10 pip install ark-nlp==0.0.2 pip install scikit-learn pip install pandas pip install elasticsearch pip install openpyxl pip install python-Levenshtein

试验超参数

代码语言:javascript
复制
argg = {
'model_dir': 'data/model_data',
'model_type': 'bert',
'model_name': 'chinese-bert-wwm-ext',
'task_name': 'ctc',
'output_dir': './data/output/ctc/',
'do_train': True,
'do_predict': False,
'result_output_dir': './data/result',
'max_length': 128,
'train_batch_size': 16,
'eval_batch_size': 16,
'learning_rate': 3e-05,
'weight_decay': 0.01,
'adam_epsilon': 1e-08,
'max_grad_norm': 0.0,
'epochs': 5,
'warmup_proportion': 0.1,
'earlystop_patience': 5,
'logging_steps': 200,
'save_steps': 10,
'seed': 2021,
'device': torch.device("cuda"
if torch.cuda.is_available()
else "cpu")
}

结果介绍

epoch:5

代码语言:javascript
复制
## 结果介绍

precision: 0.8520105137135594 - recall: 0.8032168382072119 - f1 score: 0.817622871761937
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022.04.01 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 任务目标
  • 任务说明
    • 评价指标
    • 模型介绍
    • 试验过程
      • 运行设备
        • 运行环境
          • 试验超参数
            • 结果介绍
            相关产品与服务
            Elasticsearch Service
            腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档