我正在考虑总结Youtube视频的音频使用人工智能,机器学习,作为一个霍比项目。
我能够将自动生成的封闭标题文本提取为CLOB,如下所示:
你好,各位投资者,我想我从来没有提过,但我订阅了几乎所有的东西,彭博华尔街日报,晨星和其他许多我不想向公众宣传的东西,因为大多数人不值得我的钱,但是即使我从那里得到了一点好处,但昨天邮件中出现的好消息当然是“华尔街日报”,我订阅了他们的每日照片,其中提供了很多关于经济市场正在发生的事情的幻灯片,这些幻灯片每天都能很好地看一看。
但正如你所看到的,它根本没有标点符号。我计划使用python库,但是语句Tokenizer无法将文本分解成任何较小的块。
我是新来的NLP (你可以猜到),谁能告诉我一篇文章,最好是如何指导,“标点一小块文字”。我没有从谷歌搜索中得到多少帮助(我的错)。
请建议前面的路,谢谢。
发布于 2018-10-26 06:59:07
没有NLTK/SpaCy包可以直接解决您的任务。
我建议使用这 LREC论文中提到的三种深度学习方法之一(Che等人,2016年)。你必须把你的问题作为分类任务来提出,在分类任务中,你必须预测序列中的一个单词是否后面有标点符号。
本文本身采用序列的子集<w(n-m) ... w(n-1), w, w(n+1), ... w(n+m)>来解释上下文,使用它们的单词向量,并在三个不同的模型上进行训练,每个模型都有2、3或4个输出类(O:无标点符号、PERIOD:句号、分号、感叹号、COMMA:逗号、破折号和冒号、QUESTION MARK:Q标记)。
第一个模型使用一个简单的DNN,第二个模型使用CNN,第三个模型是CNN在第二个模型中的变化。如果你选择的只是周期(减少课程的数量),据报道,简单的DNN模型提供了60%的F1分数。
至于代码,您可以请求作者。或者,既然你希望把它作为一种爱好,你可以自己实现它。
https://stackoverflow.com/questions/52999914
复制相似问题