美食图谱复现指南之依存句法分析

古柳_DesertsX

发布于 2019-03-05 09:45:28

6550

发布于 2019-03-05 09:45:28

文章被收录于专栏：Data Analysis & Viz

本文代码开源在：DesertsX/gulius-projects

哈工大语言云的官网有一篇名为《使用语言云分析微博用户饮食习惯》的文章，里面讲到了借助分词、词性标注和依存句法分析等NLP技术，可以从微博文本内容中提取出用户饮食习惯等数据。

进而可以结合用户性别、地区、发微博时间等不同维度信息，展现出许多有趣的结果，比如下图分别是上海、重庆、以及广东（男性）的特色饮食习惯：

那么如何抽取出上述食物呢？原文给出了由三个条件组成的规则：一条微博里含有词语“吃”+与“吃”相关的句法关系为VOB（动宾关系）+“吃”的宾语为名词，就可以判断发生饮食行为，进而提取出“吃”的宾语就是相关的食物。

作为解释，给出了三个例句：“我刚吃了一块巧克力”、“今天我去电影院看了浓情巧克力”、“我吃了个巧克力味冰淇淋”。

句子经过分词，并在下方标注了词性，依存弧表明每个词语之间的关系，比如主谓关系（SBV）、动宾关系（VOB）等等。

由上述规则可以判断出第二句没有饮食行为，于是进行过滤；而从另外两句中可以分别抽取出“巧克力”和“冰淇淋”（当然第三句更细粒度、更准确地应该是“巧克力味冰淇淋”，如何改进上面的规则，后面再提）。

经过上面的介绍，看起来这条规则还蛮符合逻辑，应该能行的吧？但不知怎的脑海中突然浮现出张学友这张表情包，呼之欲出就是这句......

于是用语言云官方的在线演示试了下：出现“吃”这个字+与“吃”相关的有VOB动宾关系+宾语是名词“n”......过于完美地符合所有条件。

扯回来，总得来看，给出的判断逻辑还是靠谱的，那么该如何实现呢？“章口就莱”甩下一句：Talk is cheap. Show me the code. 然而翻遍原文也没找到实现代码。

很早以前就看过这篇文章，一直不会，重新试了下，发现非常简单，果然是“难者不会，会者不难”，核心代码也就两行。

以下是代码部分（本文代码开源在：DesertsX/gulius-projects），原本不必讲pip install pyltp这种基础安装第三方库的事，但因为windows下可能会出现Microsoft Visual C++等相关错误，所以建议参考：《哈工大自然语言处理ltp在windows10下的安装使用》一文的方案二，亲测可行。

再是pyltp的入门介绍此处略过，看官方文档使用 pyltp一文就够了。

pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

pyltp 安装成功，并下载好相应的 LTP 模型文件后，分别加载分词、词性标注和依存句法分析的模型。

import os
from pyltp import Segmentor
LTP_DATA_DIR = '/path/to/your/ltp_data' # ltp模型目录的路径

# 加载分词模型
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')
segmentor = Segmentor()
segmentor.load(cws_model_path)

# 加载词性标注模型
from pyltp import Postagger
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')
postagger = Postagger()
postagger.load(pos_model_path)

# 加载依存句法分析模型
from pyltp import Parser
par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')
parser = Parser()
parser.load(par_model_path)

对每个句子分别进行分词、词性标注和依存句法分析，并对分词后的每个词语依次提取依存弧的父节点id（Root 的 id 为0，其他按分词结果依次递增）、依存关系以及依存父节点对应的词语。最后写出进行饮食行为判断的核心代码即可。

def extract_food(sentence):
    words = segmentor.segment(sentence)
    print(" ".join(words))
    postags = postagger.postag(words)
    for word, postag in zip(words, postags):
        print(word + '/'+ postag, end=' ')
    netags = recognizer.recognize(words, postags)
    arcs = parser.parse(words, postags)
       
    # 例句：我 刚 吃 了 一 块 巧克力 。
    # 提取依存父节点id
    # 3, 3, 0, 3, 6, 7, 3, 3
    rely_id = [arc.head for arc in arcs]

    # 提取依存关系
    # ['SBV', 'ADV', 'HED', 'RAD', 'ATT', 'ATT', 'VOB', 'WP']
    relation = [arc.relation for arc in arcs]

    # 匹配依存父节点词语
    # ['吃', '吃', 'Root', '吃', '块', '巧克力', '吃', '吃']
    heads = ['Root' if id==0 else words[id-1] for id in rely_id]
    
    print("\n")
    for i in range(len(words)):
        if postags[i] == 'n' and heads[i] == '吃' and relation[i] == 'VOB':
            print("找到了一种食物：" + words[i])
    print("=" * 30)

对依存关系这部分还不太理解的可以看下此文：依存句法分析结果的输出怎么看

接着三个例句进行测试，结果和原文相符。

sentences = ['我刚吃了一块巧克力。', '今天我去电影院看了浓情巧克力。', '我吃了个巧克力味冰淇淋。']
for sent in sentences:
    extract_food(sent)

以上算是简单复现了下这篇博客的思路。还有个问题就是，现实中大家讨论饮食的方式可能并不像例句中那么规整简单。

以以前爬取的知乎想法里与“#好吃的杭州#”相关的言论为例（该话题知乎想法API），各种表述方式应有尽有，理想与现实的差距可见一斑。

再者是复现的代码，对于食物宾语的提取逻辑过于简单，以致诸如“巧克力味冰淇淋”、“西湖醋鱼”等带有前缀修饰的词语都无法提取。当然宾语补全也能实现，此处暂且不表。

本文代码开源在：DesertsX/gulius-projects

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2019.02.02 ，如有侵权请联系 cloudcommunity@tencent.com 删除

开源

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

开源

登录后参与评论

0 条评论

热度

美食图谱复现指南之依存句法分析

美食图谱复现指南之依存句法分析

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐