我需要创建一个词法分析器/解析器来处理可变长度和结构的输入数据。
假设我有一个保留关键字列表:
keyWordList = ['command1', 'command2', 'command3']和用户输入字符串:
userInput = 'The quick brown command1 fox jumped over command2 the lazy dog command 3'
userInputList = userInput.split()我该如何编写这个函数:
INPUT:
tokenize(userInputList, keyWordList)
OUTPUT:
[['The', 'quick', 'brown'], 'command1', ['fox', 'jumped', 'over'], 'command 2', ['the', 'lazy', 'dog'], 'command3']我已经写了一个可以识别关键字的标记器,但一直无法找到一种有效的方法来将非关键字组嵌入到更深一层的列表中。
RE解决方案是受欢迎的,但我真的希望看到底层算法,因为我可能会将应用程序扩展到其他对象的列表,而不仅仅是字符串。
发布于 2012-01-15 08:47:27
试试这个:
keyWordList = ['command1', 'command2', 'command3']
userInput = 'The quick brown command1 fox jumped over command2 the lazy dog command3'
inputList = userInput.split()
def tokenize(userInputList, keyWordList):
keywords = set(keyWordList)
tokens, acc = [], []
for e in userInputList:
if e in keywords:
tokens.append(acc)
tokens.append(e)
acc = []
else:
acc.append(e)
if acc:
tokens.append(acc)
return tokens
tokenize(inputList, keyWordList)
> [['The', 'quick', 'brown'], 'command1', ['fox', 'jumped', 'over'], 'command2', ['the', 'lazy', 'dog'], 'command3']发布于 2012-01-15 08:23:06
如下所示:
def tokenize(lst, keywords):
cur = []
for x in lst:
if x in keywords:
yield cur
yield x
cur = []
else:
cur.append(x)这将返回一个生成器,因此将您的调用封装在一个list中。
发布于 2012-01-15 08:19:58
使用一些正则表达式很容易做到这一点:
>>> reg = r'(.+?)\s(%s)(?:\s|$)' % '|'.join(keyWordList)
>>> userInput = 'The quick brown command1 fox jumped over command2 the lazy dog command3'
>>> re.findall(reg, userInput)
[('The quick brown', 'command1'), ('fox jumped over', 'command2'), ('the lazy dog', 'command3')]现在,您只需拆分每个元组的第一个元素。
对于多个深度级别,正则表达式可能不是一个好的答案。
在这个页面上有一些很好的解析器供你选择:http://wiki.python.org/moin/LanguageParsing
我认为Lepl是一个很好的选择。
https://stackoverflow.com/questions/8866485
复制相似问题