上周末,闲着没事就试了一个新的R中文文本分词包——jiebaR,支持Windows,支持简体及繁体中文,速度也很快,大家可以根据该包文档去学习,很容易上手!下面用R及该包对《笑傲江湖(金庸)》txt文件做一个简单的文本分析,纯属为了兴趣,作者学习R语言文本挖掘的初始练习语料都是从笑傲江湖下手的!
闲话少说,书归正传!以下是代码及结果截图。
一、
代码截图(1):
结果截图<1>:
金庸-笑傲江湖.txt文件是一个1.94M大小的文件,在R中按行读入,结果呈现如上图。
二、
代码截图(2):
结果截图<2>:
上面没有深入研究,如果你是想研究一下金庸老先生的写作风格、文笔之类的,那就想个思路仔细去写代码咯
上面最后,根据出现频率最高的前25个词做了一个词云图,wordcloud包还算好用,简单易学,不过有时候也比较坑,比如词频重叠问题,需要在使用时注意!下面贴出上面命令绘制的词云图(里面,令狐冲和盈盈的红色连线是我自己画的):
如上,男主出镜率当仁不让了……
三、
代码截图(3):
结果截图<3>:
像我这样资深级的伪笑傲迷,电视剧看了N遍,想看原小说却一直没行动的人,冲盈之间的打情骂俏及风清扬这种神级人物的所言所行是值得保存下来细细品味的。
两个txt文件输出至工作目录文件夹中,如下:
不过在这里,有个问题需要请教笑傲迷们,令狐冲跟任盈盈相互称呼中除了上面有的还有哪些?
最后,祝各位学习愉快!