用机器学习来概括《哈利波特》，视频也可以有“太长不看版”

量子位

发布于 2019-04-23 15:24:32

8120

发布于 2019-04-23 15:24:32

文章被收录于专栏：量子位量子位

毒栗子发自凹非寺量子位出品 | 公众号 QbitAI

文章太长读不下去的时候，就想有个TL;DR按钮，用最短的时间，看最关键的部分。

要是视频很长不想看，该怎么挑重点食用？

一位叫做Sagi Shaier的程序猿，用机器学习给《哈利·波特》电影片段，做了一份太长不看的概括版。

(至于是哪个片段，读下去就会知道。)

他的AI还用四句话，总结了一段11分钟的有声故事。

并且，程序猿已经把算法放上了GitHub。

那么，一起来观察一下，那些没时间看但又必须看的长视频，要怎样用AI概括出要点：

语音转文本：多种工具选择

首先，做好准备工作，就是把音频转换成文本。

语音转文本的工具有很多。

该选什么工具？

程序猿先用了Pocketsphinx，免费且易用，只是准确度感人。

然后，少年又想试试谷歌云的语音转文本服务。这应该是最好的工具之一，不过少年因为不想填信用卡，就放弃了。

△ 谷歌云

最终，他选择了免费且准确率高的IBM沃森语音转文本，注册流程也简单。

△ 沃森

在Python里面用沃森

一开始你可能会感觉有点复杂，熟悉了就简单了。

只要用这一段代码：

1IBM_USERNAME = “apikey”
2IBM_PASSWORD = ‘Pass’ #Put your API key here
3stt = SpeechToTextV1(username=IBM_USERNAME, password=IBM_PASSWORD)
4audio_file = open(“new_story.wav”, “rb”) #audio file's name
5with open(‘new_story.json’, ‘w’) as fp: 
6 result = stt.recognize(audio_file, content_type=”audio/wav”,
7 continuous=True, timestamps=False,
8 max_alternatives=1).get_result()
9 json.dump(result, fp, indent=2)

把你IBM网站的密码填进去。

把要转换的音频文件名填进去。

(可以给.json文件起个名字，也可以用默认的new_story。)

然后，音频就转换成文本啦：

△ 哈利波特的一个段落

当然，语音识别还是有一些错误，后面会讲到怎样处理。

AI是怎么概括的？

有了文本，要让AI来读一读。先写这段代码，让文本变成字符串：

1with open(‘new_story.json’) as file:
2 distros_dict = json.load(file)
3for item in distros_dict[‘results’]:
4 print(item[‘alternatives’][0][‘transcript’] +’.’)

这样，就可以用NLP算法来解读了。

程序猿并没有用很复杂的算法，只需要六步：