文章/答案/技术大牛

发布

社区首页 >问答首页 >有没有可能更高效、更快地解析这个字典列表？

问有没有可能更高效、更快地解析这个字典列表？
EN

Stack Overflow用户

提问于 2020-01-16 03:01:18

回答 1查看 103关注 0票数 0

我有一个由字典和列表组成的列表，这些字典和列表具有来自xml文件的深层层次结构。我想以最有效和最快的方式解析它，并将其转换为一种新的格式，因为我要处理大量的数据。我想这会给你们带来一些乐趣！

到目前为止，我的代码还在运行。由此可以推断出原始列表中的相关信息所在的位置。我不会在这里显示原始列表，因为它太大和模糊。但是，如果您需要的话，我可以添加这些信息。

analysis = []
for sentence in mylist:
    for i, word in enumerate(sentence['w']):
        tmp_dic = {}
        index = i+1
        tmp_dic['index'] = str(index)
        tmp_dic['text'] = word['t']
        tmp_dic['lemma'] = word['lemma']['@class']
        morph = ''
        if len(word['morphology']['morpheme']) > 1:
            for morphem in word['morphology']['morpheme']:
                morph += '[' + morphem['t'] + ']'
        else:
            morph += '[' + word['morphology']['morpheme']['t'] + ']'
        tmp_dic['morph'] = morph
        tmp_dic['pos'] = word['pos']['@class']
        tmp_dic['posprob'] = word['pos']['@confidence']
        if index == len(sentence['w']):
            tmp_dic['eos'] = True      
        analysis.append(tmp_dic)

我想代码是不言自明的。然而，我想知道是否存在更优雅，特别是更快的代码，例如使用列表理解。如果您需要更多信息，请随时询问！最终结果应该如下所示：

>>>print(analysis)
[{'index': '1', 'text': 'zo', 'lemma': 'zo', 'morph': '[zo]', 'pos': 'BW()', 'posprob': '0.999512'}, {'index': '2', 'text': 'schrijft', 'lemma': 'schrijven', 'morph': '[schrijf][t]', 'pos': 'WW(pv,tgw,met-t)', 'posprob': '0.998984'}, {'index': '3', 'text': 'paulus', 'lemma': 'paulus', 'morph': '[paulus]', 'pos': 'ADJ(vrij,basis,zonder)', 'posprob': '0.382880'}, {'index': '4', 'text': 'in', 'lemma': 'in', 'morph': '[in]', 'pos': 'VZ(init)', 'posprob': '0.999350'}, {'index': '5', 'text': 'de', 'lemma': 'de', 'morph': '[de]', 'pos': 'LID(bep,stan,rest)', 'posprob': '0.999964'}, {'index': '6', 'text': 'brief', 'lemma': 'brief', 'morph': '[brief]', 'pos': 'N(soort,ev,basis,zijd,stan)', 'posprob': '0.999172'}, {'index': '7', 'text': 'aan', 'lemma': 'aan', 'morph': '[aan]', 'pos': 'VZ(init)', 'posprob': '0.999180'}, {'index': '8', 'text': 'de', 'lemma': 'de', 'morph': '[de]', 'pos': 'LID(bep,stan,rest)', 'posprob': '0.999964'}, {'index': '9', 'text': 'gemeente', 'lemma': 'gemeente', 'morph': '[gemeente]', 'pos': 'N(soort,ev,basis,zijd,stan)', 'posprob': '0.999756'}, {'index': '10', 'text': 'in', 'lemma': 'in', 'morph': '[in]', 'pos': 'VZ(init)', 'posprob': '0.931125'}, {'index': '11', 'text': 'filippi', 'lemma': 'filippi', 'morph': '[filippi]', 'pos': 'N(soort,ev,basis,onz,stan)', 'posprob': '0.508322', 'eos': True}, {'index': '1', 'text': 'zij', 'lemma': 'zij', 'morph': '[zij]', 'pos': 'VNW(pers,pron,nomin,vol,3p,mv)', 'posprob': '0.934959'}, {'index': '2', 'text': 'verzetten', 'lemma': 'verzetten', 'morph': '[ver][zet][en]', 'pos': 'WW(pv,tgw,mv)', 'posprob': '0.909747'}, {'index': '3', 'text': 'zich', 'lemma': 'zich', 'morph': '[zich]', 'pos': 'VNW(refl,pron,obl,red,3,getal)', 'posprob': '0.999740'}, {'index': '4', 'text': 'met', 'lemma': 'met', 'morph': '[met]', 'pos': 'VZ(init)', 'posprob': '0.999480'}, {'index': '5', 'text': 'hem', 'lemma': 'hem', 'morph': '[hem]', 'pos': 'VNW(pers,pron,obl,vol,3,ev,masc)', 'posprob': '0.992108'}, {'index': '6', 'text': 'tegen', 'lemma': 'tegen', 'morph': '[tegen]', 'pos': 'VZ(init)', 'posprob': '0.997583'}, {'index': '7', 'text': 'de', 'lemma': 'de', 'morph': '[de]', 'pos': 'LID(bep,stan,rest)', 'posprob': '0.999964'}, {'index': '8', 'text': 'theologie', 'lemma': 'theologie', 'morph': '[theologisch][ie]', 'pos': 'N(soort,ev,basis,zijd,stan)', 'posprob': '0.997691', 'eos': True}]

python

performance

dictionary

parsing

list-comprehension

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-01-16 03:10:32

请不要试图将其转换为列表理解，这会使它变得不必要地复杂。

相反，您可以做一些小的改进，比如用值实例化tmp_dic而不是事后赋值，从1开始枚举，而不是单独设置索引，使用f字符串来构建morph而不是附加字符串。

analysis = []
for sentence in mylist:
    for i, word in enumerate(sentence['w'], 1):
        tmp_dic = {
            'index': str(i),
            'text': word['t'],
            'lemma': word['lemma']['@class'],
            'pos': word['pos']['@class'],
            'posprob': word['pos']['@confidence'],
            'morph': "[{inner_morph}]".format(
                inner_morph="][".join(morphem["t"] for morphem in word['morphology']['morpheme'])
             )
        }

        if i == len(sentence['w']):
            tmp_dic['eos'] = True      
        analysis.append(tmp_dic)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59758008

复制

相似问题

问有没有可能更高效、更快地解析这个字典列表？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有可能更高效、更快地解析这个字典列表？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有可能更高效、更快地解析这个字典列表？
EN