前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python 自然语言处理《釜山行》人物关系

Python 自然语言处理《釜山行》人物关系

作者头像
CDA数据分析师
发布2018-02-05 14:43:58
1K0
发布2018-02-05 14:43:58
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师

前两天的 R 语言版:R 语言分析《釜山行》人物关系 让很多人都很惊叹,今天小编发糖,给大家送上 Python 版。

本文使用 jieba 库对 《釜山行》中的人物关系进行提取,然后使用 Gephi 软件进行关系可视化处理,得到可视化的人物关系。

1. 使用 jieba 库对《釜山行》的剧本进行关系实体。这里的实体指的是人物。
代码语言:javascript
复制
names = {}            # 姓名字典relationships = {}    # 关系字典#limenames 记录的是每一行出现的名字, 也就是说,只有出现在用一行的名字才认为是有关系的lineNames = []        # 每段内人物关系
代码语言:javascript
复制
jieba.load_userdict("dict.txt")        # 加载字典with codecs.open("busan.txt", "r", "utf8") as f:    for line in f.readlines():        #按行输出文件
        #print line
        #poss 包含两个key,一个是word,一个是flag
        """
        words=pseg.cut("我爱北京天安门")
        for word ,flag in words:
                print ('%s %s' %(word,flag))

           输出的格式是:
           我   r
           爱   v
           北京  ns
           天安门  ns
        """
        poss = pseg.cut(line)        # 分词并返回该词词性
        #给list添加一个为空的list
        lineNames.append([])        # 为新读入的一段添加人物名称列表
        for w in poss:            if w.flag != "nr" or len(w.word) < 2:                continue            # 当分词长度小于2或该词词性不为nr时认为该词不为人名
            #[-1]表示最后一个元素
            #limenames 记录的是每一行出现的名字, 也就是说,只有出现在用一行的名字才认为是有关系的
            lineNames[-1].append(w.word)        # 为当前段的环境增加一个人物
            if names.get(w.word) is None:
                names[w.word] = 0
                relationships[w.word] = {}
            names[w.word] += 1                    # 该人物出现次数加 1

运行的结果是:在names得到的是人名和人名出现的次数

2 出现实体之间的关系

提取中文之间的实体关系是一个很复杂的算法,但是这里并不需要提取到具体的关系。只需要直到他们之间是否有关系。所以,判断是否有关系,通过一句话里面是否有这两个实体。如果一句话里面包含这两个实体,我们可以认为他们是存在关系的。(但也可能并不存在,只是存在关系的可能性很大)

代码语言:javascript
复制
lineNames = []        # 用linenames记录每一行出现的人名如果这一行没有人名,就push一个空list,如果有,就把人push进去。

建立实体之间关系:

代码语言:javascript
复制
# explore relationshipsfor line in lineNames:                    # 对于每一段
    for name1 in line:                    
        for name2 in line:                # 每段中的任意两个人
            if name1 == name2:
                continue            #如果名字1 和名字2 不相同的话
            #也就是说,关系的抽取是基于 这一行有没有出现这两个名字
            if relationships[name1].get(name2) is None:        # 若两人尚未同时出现则新建项
                relationships[name1][name2]= 1
            else:
                relationships[name1][name2] = relationships[name1][name2]+ 1        # 两人共同出现次数加 1
3.输出关系
代码语言:javascript
复制
with codecs.open("busan_node.txt", "w", "utf-8") as f:
    f.write("Id Label Weight\r\n")    for name, times in names.items():
        f.write(name + " " + name + " " + str(times) + "\r\n")with codecs.open("busan_edge.txt", "w", "gbk") as f:
    f.write("Source Target Weight\r\n")    for name, edges in relationships.items():        for v, w in edges.items():            if w > 3:
                f.write(name + " " + v + " " + str(w) + "\r\n")

得到实体之间的关系

4. 用gephi进行可视化处理

生成一张可视化的关系图

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-04-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 使用 jieba 库对《釜山行》的剧本进行关系实体。这里的实体指的是人物。
  • 2 出现实体之间的关系
  • 3.输出关系
  • 4. 用gephi进行可视化处理
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档