我希望在C++中高效地实现KL发散。(目前仅限CPU)。 非常类似于AES或FTT (快速傅立叶变换),因此使用公共函数会导致硬件级别的优化(Intel AES和Intel FTT)。对于自然对数,是否有类似的东西,或者稍微更高的效率(ASM/C),可以防止成功执行许多自然对数函数的瓶颈(如果它们存在)? 相同的用例示例: .Many parallel and independent node executions; each one performing 20~ KL calculations from localized (not shared or pointer reffed) me