你如何开始创建一个多模态神经网络?
发布于 2021-10-20 18:21:51
多式学习可能很复杂(就像任何事情一样),但也可以相当简单。
多模式建模的一般思想是将数据并行地消耗,这些数据具有彼此非常不同的“模式”(如音频、视频和文本描述)来预测某些东西(例如,如果视频是关于猫的)。对于这种类型的数据,这可能是很困难的,因为音频、视频和文本的建模策略都是非常不同的。
多模学习的一般方法是为每个模式创建一个(或多个)模型,然后创建一个高级模型,该模型消耗其他模型的输出以生成最终输出。就像这样:
audio -> recognize cat noises -> ?is cat noise in audio ----------------v
video -> recognize cat images -> ?is cat in video -----------------------> final model
text -> recognize text with or relating to cats -> ?is cat in the text -^
这是很多工作,但与简单的建模策略并没有太大的不同:您只需训练每个模态模型,然后创建一个数据集,将模型的输出作为最终模型的输入。在我看来,这似乎是集成学习的一个特定用例。
https://datascience.stackexchange.com/questions/103322
复制相似问题