微软又出黑科技：Video Indexer，机器帮你看视频

文章来源：企鹅号 - 一只技术宅

之前有一次给大家介绍过

微软出的 PPT 插件

，功能是在幻灯片播放时，可以实时自动根据演讲者的语音，生成字幕，听众手机里安装微软翻译 APP 的话，还可以实时将演讲翻译成各种语言，简直是人工智能版的同声传译。

今天，再给大家分享一个微软的黑科技 ——Video Indexer。

虽然上面的翻译十分生硬，但是大意就是，这款「视频索引器」能够帮你读懂视频，不仅可以将演讲声音识别成文字，同时还可以对说话的人物、演讲的关键词，甚至情感倾向进行分析。

对于音频文件，支持语音转文字，可以进行翻译，标识关键字，标识品牌商标等命名实体，进行语音消噪，进行情绪分析等。同时，语音识别还支持对特定行业进行调整，以更好地从语音中识别出这个行业里的专业名词。

对于视频文件，能够检测视频中的人脸，标识出讲话的人物。可以识别出视频中出现的文字（比如演讲时镜头切换到 PPT 时，可以识别 PPT 中的文字）。另外还有关键帧提取等功能。

这个 Video Indexer 把诸多 AI 技术进行了结合：语音处理、图像处理、文本挖掘……最终，这些功能恰当地综合在一起，就能做出一个帮你读懂视频的识别助手。

体验网址

输入http://video.ai即可访问，目前还是免费预览版，供大家感受黑科技使用。同时提供了面向开发者的相关 API，开发者可以申请密钥，在自己的程序中集成这套服务。

试用一下吧

在 video.ai 网站中，使用微软账户登录，来体验一下这款产品。你可以上传自己的视频进行分析，或者直接用示例视频体验一下效果。

先上一个示例视频体验一下，选微软 Build 大会上的一段视频吧：

点开之后，直接能看到分析结果，在「脚本」一栏，可以看到视频转文字的处理结果。可以自动将演讲转换为文本，同时标识出是谁讲了这段话。如果镜头切换到 PPT，还可以 OCR 识别出视频中的文字。

在「见解」一栏中，提供了对视频内容的分析，例如识别出视频中出现的人、品牌、关键词等。

为了增加难度，从微博上随手选了一段视频，上传来看下效果。

上传之后，需要等待一段时间，待视频处理完成。由于只是预览试用版，无论上传速度还是处理速度都不会很快，建议选个小点的视频来尝试。

由于选的这段视频出自综艺节目，户外录制噪音较大，而且综艺节目屏幕上出现的人物、文字通常也很凌乱，但仍然识别出了不少信息。这只是预览版本，将这项服务与企业级应用标准相结合，一定会有广泛的前景。

微软的这款黑科技产品，让我们看到了人工智能技术在当下的一些可行的应用。虽然语音、图像、文本看似不太相关的领域，但稍微一进行结合，也能找到非常合适的应用场景。未来的会议纪要、发布会演讲、新闻报道，都可以通过这些技术进行自动处理，帮助人们更好地存储、检索信息。

相关快讯