前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >汉字字符特征提取器 ,提取发音特征、字形特征用做深度学习的特征

汉字字符特征提取器 ,提取发音特征、字形特征用做深度学习的特征

作者头像
机器学习AI算法工程
发布2019-10-28 16:28:25
1.3K0
发布2019-10-28 16:28:25
举报
在深度学习中,很多场合需要提取汉字的特征(发音特征、字形特征)。本项目提供了一个通用的字符特征提取框架,并内建了 拼音字形(四角编码) 和 部首拆解 的特征。

特征提取器

  • 拼音特征提取器:提取汉字的拼音作为特征,发音相似的字在编码上应该相似。示例: -> ->
  • 字形(四角编码)提取器:提取中文的外形作为特征,相似的汉字在编码上应该相近。示例: -> 37001 -> 37101
  • 部首拆解提取器:提取汉字的偏旁部首拆解作为特征,相似的汉字在编码上应该相近。示例: -> ['门', '一'] -> ['门', '三']

AI项目体验地址 https://loveai.tech

使用

代码语言:javascript
复制
from hanzi_char_featurizer import Featurizor
featurizor = Featurizor()
result = featurizor.featurize('明天')

print(result)

输出

([['m'], ['t']], [['ing'], ['ian']], [['2'], ['1']],

('6', '1'), ('7', '0'), ('0', '8'), ('2', '0'),

('0', '4'))

结构解析

输出到 TensorFlow 作为 Tensor

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习AI算法工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 特征提取器
  • 使用
  • 结构解析
  • 输出到 TensorFlow 作为 Tensor
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档