前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >nlp模型-bert从入门到精通(二)

nlp模型-bert从入门到精通(二)

作者头像
学到老
发布2019-10-25 09:42:11
8710
发布2019-10-25 09:42:11
举报

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/HHTNAN/article/details/100739168

命名实体识别

首先下载相应bert 模块

代码语言:javascript
复制
pip install bert-base==0.0.9 -i https://pypi.python.org/simple

也可参考官网处理 安装

在这里插入图片描述
在这里插入图片描述

软件包现在支持的功能 1.命名实体识别的训练 2.命名实体识别的服务C/S 3.继承优秀开源软件:bert_as_service(hanxiao)的BERT所有服务 4.文本分类服务 后续功能会继续增加

基于命名行训练命名实体识别模型:

安装完bert-base后,会生成两个基于命名行的工具,其中bert-base-ner-train支持命名实体识别模型的训练,你只需要指定训练数据的目录,BERT相关参数的目录即可。可以使用下面的命令查看帮助

在这里插入图片描述
在这里插入图片描述

训练的事例命名如下:

代码语言:javascript
复制
bert-base-ner-train \
    -data_dir {your dataset dir}\
    -output_dir {training output dir}\
    -init_checkpoint {Google BERT model dir}\
    -bert_config_file {bert_config.json under the Google BERT model dir} \
    -vocab_file {vocab.txt under the Google BERT model dir}

参数说明 其中data_dir是你的数据所在的目录,训练数据,验证数据和测试数据命名格式为:train.txt, dev.txt,test.txt,请按照这个格式命名文件,否则会报错。 训练数据的格式如下:

代码语言:javascript
复制
海 O
钓 O
比 O
赛 O
地 O
点 O
在 O
厦 B-LOC
门 I-LOC
与 O
金 B-LOC
门 I-LOC
之 O
间 O
的 O
海 O
域 O
。 O

每行得第一个是字,第二个是它的标签,使用空格’ '分隔,请一定要使用空格。句与句之间使用空行划分。程序会自动读取你的数据。

output_dir: 训练模型输出的文件路径,模型的checkpoint以及一些标签映射表都会存储在这里,这个路径在作为服务的时候,可以指定为-ner_model_dir init_checkpoint: 下载的谷歌BERT模型 bert_config_file : 谷歌BERT模型下面的bert_config.json vocab_file: 谷歌BERT模型下面的vocab.txt 训练完成后,你可以在你指定的output_dir中查看训练结果。

更多操作: https://blog.csdn.net/macanv/article/details/85684284

还有一个bert模型的封装

https://www.jianshu.com/p/1d6689851622 https://cloud.tencent.com/developer/article/1470051 https://www.h3399.cn/201908/714454.html

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-09-11 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 命名实体识别
  • 基于命名行训练命名实体识别模型:
  • 还有一个bert模型的封装
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档