文章/答案/技术大牛

发布

社区首页 >问答首页 >创建列表词法分析器/解析器

问创建列表词法分析器/解析器
EN

Stack Overflow用户

提问于 2012-01-15 08:07:59

回答 4查看 831关注 0票数 2

我需要创建一个词法分析器/解析器来处理可变长度和结构的输入数据。

假设我有一个保留关键字列表：

keyWordList = ['command1', 'command2', 'command3']

和用户输入字符串：

userInput = 'The quick brown command1 fox jumped over command2 the lazy dog command 3'
userInputList = userInput.split()

我该如何编写这个函数：

INPUT:

tokenize(userInputList, keyWordList)

OUTPUT:
[['The', 'quick', 'brown'], 'command1', ['fox', 'jumped', 'over'], 'command 2', ['the', 'lazy', 'dog'], 'command3']

我已经写了一个可以识别关键字的标记器，但一直无法找到一种有效的方法来将非关键字组嵌入到更深一层的列表中。

RE解决方案是受欢迎的，但我真的希望看到底层算法，因为我可能会将应用程序扩展到其他对象的列表，而不仅仅是字符串。

python

algorithm

parsing

lexer

tokenize

回答 4

Stack Overflow用户

回答已采纳

发布于 2012-01-15 08:47:27

试试这个：

keyWordList = ['command1', 'command2', 'command3']
userInput = 'The quick brown command1 fox jumped over command2 the lazy dog command3'
inputList = userInput.split()

def tokenize(userInputList, keyWordList):
    keywords = set(keyWordList)
    tokens, acc = [], []
    for e in userInputList:
        if e in keywords:
            tokens.append(acc)
            tokens.append(e)
            acc = []
        else:
            acc.append(e)
    if acc:
        tokens.append(acc)
    return tokens

tokenize(inputList, keyWordList)
> [['The', 'quick', 'brown'], 'command1', ['fox', 'jumped', 'over'], 'command2', ['the', 'lazy', 'dog'], 'command3']

票数 1

Stack Overflow用户

发布于 2012-01-15 08:23:06

如下所示：

def tokenize(lst, keywords):
    cur = []
    for x in lst:
        if x in keywords:
            yield cur
            yield x
            cur = []
        else:
            cur.append(x)

这将返回一个生成器，因此将您的调用封装在一个list中。

票数 5

Stack Overflow用户

发布于 2012-01-15 08:19:58

使用一些正则表达式很容易做到这一点：

>>> reg = r'(.+?)\s(%s)(?:\s|$)' % '|'.join(keyWordList)
>>> userInput = 'The quick brown command1 fox jumped over command2 the lazy dog command3'
>>> re.findall(reg, userInput)
[('The quick brown', 'command1'), ('fox jumped over', 'command2'), ('the lazy dog', 'command3')]

现在，您只需拆分每个元组的第一个元素。

对于多个深度级别，正则表达式可能不是一个好的答案。

在这个页面上有一些很好的解析器供你选择：http://wiki.python.org/moin/LanguageParsing

我认为Lepl是一个很好的选择。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8866485

复制

相似问题

问创建列表词法分析器/解析器
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问创建列表词法分析器/解析器EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问创建列表词法分析器/解析器
EN