Rare Event
与其他机器学习不同,在文本分析里,陌生的东西(rare event)往往是最重要的,而最常见的东西往往是最不重要的。
文本(Text)是单词(word)的序列,一个关键特点是长度可变,就不能直接变为vector
CNN 在空间上共享参数,RNN在时间上(顺序上)共享参数
计算到梯度爆炸的时候,使用一个比值来代替△W(梯度是回流计算的,横坐标从右往左看)
梯度消失会导致分类器只对最近的消息的变化有反应,淡化以前训练的参数,也不能用比值的方法来解决
三个门,决定是否写/读/遗忘/写回
有了上面的模型之后,我们可以根据上文来推测下文,甚至创造下文,预测,筛选最大概率的词,喂回,继续预测……
觉得我的文章对您有帮助的话,给个star可好?