首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >标出一大串文字

标出一大串文字
EN

Stack Overflow用户
提问于 2018-10-26 00:42:57
回答 1查看 143关注 0票数 0

我正在考虑总结Youtube视频的音频使用人工智能,机器学习,作为一个霍比项目。

我能够将自动生成的封闭标题文本提取为CLOB,如下所示:

你好,各位投资者,我想我从来没有提过,但我订阅了几乎所有的东西,彭博华尔街日报,晨星和其他许多我不想向公众宣传的东西,因为大多数人不值得我的钱,但是即使我从那里得到了一点好处,但昨天邮件中出现的好消息当然是“华尔街日报”,我订阅了他们的每日照片,其中提供了很多关于经济市场正在发生的事情的幻灯片,这些幻灯片每天都能很好地看一看。

但正如你所看到的,它根本没有标点符号。我计划使用python库,但是语句Tokenizer无法将文本分解成任何较小的块。

我是新来的NLP (你可以猜到),谁能告诉我一篇文章,最好是如何指导,“标点一小块文字”。我没有从谷歌搜索中得到多少帮助(我的错)。

请建议前面的路,谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-26 06:59:07

没有NLTK/SpaCy包可以直接解决您的任务。

我建议使用 LREC论文中提到的三种深度学习方法之一(Che等人,2016年)。你必须把你的问题作为分类任务来提出,在分类任务中,你必须预测序列中的一个单词是否后面有标点符号。

本文本身采用序列的子集<w(n-m) ... w(n-1), w, w(n+1), ... w(n+m)>来解释上下文,使用它们的单词向量,并在三个不同的模型上进行训练,每个模型都有2、3或4个输出类(O:无标点符号、PERIOD:句号、分号、感叹号、COMMA:逗号、破折号和冒号、QUESTION MARK:Q标记)。

第一个模型使用一个简单的DNN,第二个模型使用CNN,第三个模型是CNN在第二个模型中的变化。如果你选择的只是周期(减少课程的数量),据报道,简单的DNN模型提供了60%的F1分数。

至于代码,您可以请求作者。或者,既然你希望把它作为一种爱好,你可以自己实现它。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52999914

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档