自然语言处理课程(一):自然语言处理在网文改编市场的应用

文|一鱼数据

热爱网文的你有没有想过研究自己喜欢的小说呢?那么你需要学会文本分析。很多人觉得文本分析是深奥的理论,其实不然。为了让网文爱好者也能学习和运用文本分析方法来研究自己喜爱的小说,一鱼贴心地准备了一套简单易懂的零基础课程——介绍小说文本分析中最常用的基础理论方法和技术方法。

本文是第一课——介绍网络文学IP改编的市场,及自然语言处理在该领域的应用。

下面让我们开始学习吧(~ ̄▽ ̄)~。

我爱学习,学习使我快乐分割线

《邪气凛然》、《恶魔法则》、《斗罗大陆》、《斗破苍穹》、《武动乾坤》(此处省略十万本)。在现当代的移动网络时代,网络连载小说已经成为很多小说迷们必不可少的文学载体,21世纪网络小说的崛起也颠覆了文学呈现的载体,让更多作者的作品能够更轻易的分享给大众们。

网络小说捧红很多作者,例如大名鼎鼎的唐家三少、我吃西红柿、跳舞、梦入神机等等,他们的作品已经不仅仅是一本或者一套书,市场份额更广、影响力更大的影视行业也盯准这些当红作家,这就促成了另一个行业的崛起——网络文学IP改编。

网络IP改编听起来是一件易事:选一部作品作为电视剧电影拍就行了。但是在一部成功的小说IP改编背后(例如白夜追凶、心理罪、鬼吹灯等)是一个庞大的产业以及技术链:怎样选择小说、怎样确定改编形式、如何改编剧本、演员导演如何搭配等等,这都不是一朝一夕能够完成的。

目前行业解决这些问题的方法是大数据分析方法与专家分析相结合的方法,而如何选择一本适合改编的小说是网络IP改编的第一步。更具体地讲,就是通过文本分析和大数据分析进行小说选择,而自然语言处理的是文本分析阶段运用的技术方法。

那我们来看看到底什么是自然语言处理?

自然语言处理是什么?

自然语言处理是对基于系统理论和科技的文本分析进行计算化分析的一种方法。作为一个异常活跃的调查和发展方向,虽然自然语言处理尚未达成一个满足所有人一致同意的理论,但也有一个所有人统一达成的共识:

Definition: Natural Language Processing is a theoretically motivated range of computational techniques for analyzing and representing naturally occurring texts,at one or more levels of linguistic analysis for the purpose of achieving human-like language processing for a range of tasks or applications.

自然语言处理是一门基于理论和不同范围的计算机方法来分析和代表自然生活中发生的不同等级的文本,从而对人类生活中自然发生的文本进行处理,成功解析并运用在多个方面的学科。

在这里“自然生活中发生的文本”可以是任何的语言、模式、种类等等。文本可以是口头的,也可以是书面上的,唯一的要求是文本必须是用于人与人之间的沟通交流。此外,被分析的文本不能是为了达到研究的目的而特定选出的,应该是生活中真实的应用。

网络小说算是一个比较规范的“自然生活中发生的文本”,跟生活中的其他类型的文本对比,例如用于对话的、用于特定领域的专业术语、符号文字掺杂的等等,小说的形式和用词用语都有自己的大致的一个规范,所以计算机更好的识别,也更加利于分析员们做出有效的分析。

“对人类生活中自然发生的文本进行处理“揭示了自然语言处理满足人工智能必要的一大准则,虽然说自然语言处理在其他方面没有特别的吻合,但自然语言处理对于模拟人类这一大特性可以将自然语言处理纳入人工智能领域中。

“并运用在多个方面“指出在人工智能研发者除外的人,自然语言处理的目的不在其本身, 而是在完成特定的某项工作,因此有诸如信息检索、机器翻译、问答等多个领域的应用。

人工智能可能是今年来最火的一个词语,它听起来非常的高端,自然语言处理在这里也被归纳于其中,但事实上很多概念非常的浅显易懂。什么是人工智能?人工智能在百科的定义是:它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

自然语言处理现在的进展水平虽然还远远达不到完全模拟人的说话、交流、写作等,但在各个领域的成果还是很显著的。举个很简单的例子,我们每天都要在在百度上面搜索的时候,百度就无数次用到了自然语言处理,它通过计算机和分析的试验,尽可能的理解我们输入的搜索中我们想得到的信息,然后反馈给我们。

不知道大家有没有感受到,和5年前或者10年前相比,百度的速度明显变快了,这就是自然语言处理在不断进步突破的一个小小的证据。(在计算机的算法分析领域就是让计算机程序的运行速率尽可能的快和高效,不然我们怎么能一点也不卡的欢快的吃鸡呢?)

自然语言处理的目标

正如上文所说,自然语言处理的目标是“对人类生活中自然发生的文本进行处理”。这里的用词”处理“的选择是非常讲究的,且不应该被另一个词”理解“所代替。虽然在早期的人工智能领域,自然语言处理被混淆为自然语言理解(NLU),但在今天普遍达成的共识是:的确自然语言处理的最终目标与自然语言理解是一样的,但是此目标尚未达成。一套完整的自然语言理解能够:

1.解释一段输入的文本

2.用另一种语言翻译此文本

3.对于文本的内容进行解答

4.对文本内容进行推论

尽管自然语言处理在1-3方面有卓越的贡献,由于不能自己进行文本推论,自然语言处理的目标仍然被自然语言理解的大目标所涵盖

这里就说到了我们的重点:网络小说改编还没有一个官方的与自然语言处理的关联定义,但是自然语言理解四大目标中的1(解释一段输入的文本 )和 3(对于文本的内容进行解答)是网络小说IP改编想要研究并实现的目标,并且1和3都非常的浅显易懂。

1:词由字生、句由词生、段由句生,段落最终组成了一篇文章或者一本小说,要进行更多的分析,机器首先要对文章的内容有一个大致的了解,在准确率高的情况下才能开展下一步工作,否则都是无稽之谈。这里就会运用到大量的训练让让机器逐渐的理解词语,我们暂时不讨论具体的方法。

3:在机器能够大致知道文章内容的情况下, 究竟如何判断一本网络小说是否能够被成功改编为电视剧或电影呢?这个问题就要使机器不仅仅能够知道小说大体的内容,并且能够通过内容进行诸如小说情感、小说结构上的分析,以达到最后能够判断是否小说适合被改编,是否可以再市场上获得肯定等等,这些是用自然语言处理达到网络小说改编的终极目标。

本期课程就到这里啦,下期课程内容是“分词运用 part1: 介绍分词对网络文学分析的作用,Jieba分词的原理及实例操作”,尽请期待。欢迎小伙伴加入“自然语言处理课程”微信群玩耍,有什么不懂的问题里可以在群里讨论(PS:群里有大神哦)。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180515G1BGFS00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券