前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >怎样在小型设备上处理文本?试试 Facebook 的新版 fastText 吧

怎样在小型设备上处理文本?试试 Facebook 的新版 fastText 吧

作者头像
AI研习社
发布2018-03-29 09:30:38
1K0
发布2018-03-29 09:30:38
举报
文章被收录于专栏:AI研习社AI研习社
近日 FAIR 实验室在官方博客中指出,目前 fastText 资料库已经能够在智能手机及小型电脑上使用,而且内存只需要几百千字节,充分增强了 fastText 的延展性。

为实现这一目的,FAIR 实验室需要尽可能减少 fastText 模型在运转时所消耗的内存。Facebook 的 FAISS 团队与 fastText 团队进行合作,发布论文《FastText.zip: Compressing Text Classification Models》(FastText.zip:压缩文本分类模型),能够克服模型迁移到小型存储设备存在的挑战。

Facebook 团队一直努力在提升精度的同时尽可能地减少计算的复杂度,让实际应用在使用的过程中变得更加灵活方便。而在机器学习拓展的过程中,团队所面临的问题在于,需要涉及一个通用库来解决文本分类问题。因此,fastText 应运而生,针对文本表达和分类帮助建立量化的解决方案。

FAIR 实验室去年开源了资料库 fastText,AI 研习社此前也做过覆盖。

FAIR fastText 的具体实现原理过程有两篇相关论文阐述,分别是《Bag of Tricks for Efficient Text Classification》(高效的文本分类技巧)和《Enriching Word Vectors with Subword Information》(使用子字信息丰富词汇向量)。当时开源的资料库对内存要求较高,动辄数 GB,因此主要支持笔记本电脑及 X86 用户。

对于有大量类别的数据集,fastText 采用了分层分类器,将不同的类别整合进树形结构中。并且结合线性及多类别的对数模型,能够大量减少训练的时间,也减少了训练的复杂度。利用类别不均衡的客观事实,研究人员采用 Huffman 算法建立用于表征类别的树形结构。并且根据树形出现的频率高低,深度也有所不同,这样一来也提升了计算效率。

FAIR 实验室采用低维度向量对文本进行表征。高向量自然能提升准确性,但所耗费的训练时间和计算量也较多。研究显示,如果有正确的表征与足够庞大的语料库,那么即便是低维度向量也可以得到最优的结果。在编码期间,向量的大小会通过常规获得低维向量的优化方法来获得。团队通过「bag-of-words」(词袋)提取特征和线性分类器以训练模型。因为词袋并不能识别句子中的单词顺序,所总结的高频单词特征并不能与低频率单词共享,导致低频单词的准确率也要稍低。「n-gram」模型能够解决词序问题,但也会增加训练的复杂度、时间和相应的费用。fastText 部分采用了「n-gram」,通过选择主题词前后的词数以平衡训练时间与准确度的关系。

结果显示,fastText 比起目前非常流行的 word2vec 以及最先进的形态词表征方式有着更好的表现,且兼容多种语言。除准确度外,fastText 也有着更快的速度,比起目前表现最好的神经网络,它的运行速度快 1000 到 10000 倍。这是使用低级线性模型和标准功能(如二进制)的结果。

而兼容小型设备后,相信 fastText 能在未来服务更多的用户,AI 研习社也将持续关注。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-05-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档