首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

非主流自然语言处理——遗忘算法系列(二):大规模语料词库生成

一、前言   本文介绍利用牛顿冷却模拟遗忘降噪,从大规模文本中无监督生成词库的方法。 二、词库生成     算法分析,先来考虑以下几个问题     问:目标是从文本中抽取词语,是否可以考虑使用遗忘的方法呢?     答:可以,词语具备以相对稳定周期重复再现的特征,所以可以考虑使用遗忘的方法。这意味着,我们只需要找一种适当的方法,将句子划分成 若干子串,这些子串即为“候选词”。在遗忘的作用下,如果“候选词”会周期性重现,那么它就会被保留在词库中,相反如果只是偶尔或随机出现,则会逐渐被遗 忘掉。     问:那

013

codeReview常见代码问题

路线图   常见代码问题   空值   未捕获潜在的异常   低性能   影响范围过大   单测问题   与原有业务逻辑不兼容   缺乏必要日志   错误码不符合规范   参数检测缺乏或不足   引用错误   名字冲突   细节错误   多重条件   文不符实   跨语言或跨系统交互   可维护性问题   硬编码   重复代码   通用逻辑与定制业务逻辑耦合   直接在原方法里加逻辑   多业务耦合   代码层次不合理   不用多余的代码   使用全局变量   缺乏必要的注释   更难发现的错误   并发   资源泄露   事务   SQL问题   安全问题   设计问题   较轻微的问题   命名不贴切   声明时未初始化   风格与整体有不一致   类型转换错误   否定式风格   容器遍历的结构变更   API参数传递错误   单行调用括号过多   修改方法签名   打印日志太多   多级数据结构   作用域过大   分支与循环   残留的无用代码   代码与文档不一致   使用冷僻用法或奇淫巧技

03
领券