开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >获得Bert预训练好的中文词向量

获得Bert预训练好的中文词向量

作者头像

全栈程序员站长

发布于 2022-08-26 13:54:07

7310

发布于 2022-08-26 13:54:07

举报

文章被收录于专栏：全栈程序员必看

大家好，又见面了，我是你们的朋友全栈君。

安装肖涵博士的bert-as-service： pip install bert-serving-server pip install bert-serving-client
下载训练好的Bert中文词向量： https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
启动bert-as-service：找到bert-serving-start.exe所在的文件夹（我直接用的anaconda prompt安装的，bert-serving-start.exe在F:\anaconda\Scripts目录下。）找到训练好的词向量模型并解压，路径如下：G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口，进入到bert-serving-start.exe所在的文件目录下，然后输入： bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 即可启动bert-as-service（num_worker好像是BERT服务的进程数，例num_worker = 2，意味着它可以最高处理来自 2个客户端的并发请求。）启动后结果如下：

在这里插入图片描述

此窗口不要关闭，然后在编译器中即可使用。

获取Bert预训练好的中文词向量： from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有偷东西”]))#获取分词后的句子向量表示

结果如下：其中每一个向量均是768维。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

可以看出分词并不会对句子的向量产生影响。参考文章： 1.https://blog.csdn.net/zhonglongshen/article/details/88125958 2.https://www.colabug.com/5332506.html

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/144010.html原文链接：https://javaforall.cn

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2022年5月1，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.