文章/答案/技术大牛

发布

社区首页 >问答首页 >标出一大串文字

问标出一大串文字
EN

Stack Overflow用户

提问于 2018-10-26 00:42:57

回答 1查看 143关注 0票数 0

我正在考虑总结Youtube视频的音频使用人工智能，机器学习，作为一个霍比项目。

我能够将自动生成的封闭标题文本提取为CLOB，如下所示：

你好，各位投资者，我想我从来没有提过，但我订阅了几乎所有的东西，彭博华尔街日报，晨星和其他许多我不想向公众宣传的东西，因为大多数人不值得我的钱，但是即使我从那里得到了一点好处，但昨天邮件中出现的好消息当然是“华尔街日报”，我订阅了他们的每日照片，其中提供了很多关于经济市场正在发生的事情的幻灯片，这些幻灯片每天都能很好地看一看。

但正如你所看到的，它根本没有标点符号。我计划使用python库，但是语句Tokenizer无法将文本分解成任何较小的块。

我是新来的NLP (你可以猜到)，谁能告诉我一篇文章，最好是如何指导，“标点一小块文字”。我没有从谷歌搜索中得到多少帮助(我的错)。

请建议前面的路，谢谢。

python

nlp

nltk

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-26 06:59:07

没有NLTK/SpaCy包可以直接解决您的任务。

我建议使用这 LREC论文中提到的三种深度学习方法之一(Che等人，2016年)。你必须把你的问题作为分类任务来提出，在分类任务中，你必须预测序列中的一个单词是否后面有标点符号。

本文本身采用序列的子集<w(n-m) ... w(n-1), w, w(n+1), ... w(n+m)>来解释上下文，使用它们的单词向量，并在三个不同的模型上进行训练，每个模型都有2、3或4个输出类(O：无标点符号、PERIOD：句号、分号、感叹号、COMMA：逗号、破折号和冒号、QUESTION MARK：Q标记)。

第一个模型使用一个简单的DNN，第二个模型使用CNN，第三个模型是CNN在第二个模型中的变化。如果你选择的只是周期(减少课程的数量)，据报道，简单的DNN模型提供了60%的F1分数。

至于代码，您可以请求作者。或者，既然你希望把它作为一种爱好，你可以自己实现它。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52999914

复制

相似问题

问标出一大串文字
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问标出一大串文字EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问标出一大串文字
EN