首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Hierarchical softmax(分层softmax)简单描述.

最近在做分布式模型实现时,使用到了这个函数. 可以说非常体验非常的好. 速度非常快,效果和softmax差不多. 我们知道softmax在求解的时候,它的时间复杂度和我们的词表总量V一样O(V),是性线性的,从它的函数方程式中,我们也可以很容易得出: softmax: f(x) = e^x / sum( e^x_i ) ; 它的需要对所有的词 e^x 求和; 所以当V非常大的时候,哪怕时间复杂度是O(V),这个求解的过程耗时也比较“严重”; 设想一下,当我们在训练模型时, 我们知道目标词x,但是我们却需要去求解所有的词,并求和。 当然,有很多去研究如何优化这一过程,提出过各种各样的设想,其中 Hierarchical softmax 就是其中璀璨的一种。

04

层次时间序列预测指南

层次时间序列预测是工业界非常常见的一个应用场景。当要预估的时间序列之间存在层次关系,不同层次的时间序列需要满足一定的和约束时,就需要利用层次时间序列预测方法解决。设想这样一种场景,我们作为政府负责旅游业的部门,需要预测出澳大利亚每个月的旅游人数,同时还需要预测澳大利亚每个州的旅游人数,以及每个州中每个区的旅游人数。如果澳大利亚包括10个州,每个州包括5个地区,那么总共需要预测1+10+50个时间序列。而这50个时间序列是存在关系的,即澳大利亚总旅游人数=10个州旅游总人数,同时每个州旅游总人数=这个州下5个地区旅游总人数。这就形成了一个类似于下面这样的层次结构:

02
领券