首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

​万字长文详解文本抽取:从算法理论到实践(附“达观杯”官方baseline实现解析及答疑)

大家可以看到,图里有U00到U08,最后还有一个字母“B”,B说明它会学习标签间的转移。U00到U08都是特征,U00表示第一个特征,U01是第二个特征。此外还有一个x%,它代表了前面特征的内容。...首先看第一个特征:U00: %X[-3,0]。U00表示把我们要研究的字左边的第三个字作为特征,向量后一个数0表示我们没有添加人工特征。我们把这些拼接起来就是一个最终的特征。 ?...template.txt文件可以在本文最上方的链接[c4] 下载,文件内容如下: # Unigram U00:%x[-3,0] U01:%x[-2,0]...具体来说,因为我们现在可以看U00到U06对应的都只是一个坐标,代表了当前字向前和向后的字,但是我们并没有横向地去取特征。...如果大家加了其他的特征工程,那么在每行(如U00:%x[-3,0])后面加上这个字的其他特征,比如这个字本身及前后几个字是否是一个停用词,或者这一个字的前一个字是不是停用词的特征。

1.4K40

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券