我丢失了从http://www.ywing.net/graphicspaper.php生成的句子,这是一个随机的计算机图形文件标题生成器,一些例句排序如下:
我想尝试反向工程背后的语法,并学习如何以某种方式,如普通的lisp方式或NLTK方式。对此有什么想法吗?
-德雷克
发布于 2010-09-11 06:21:59
这似乎是个有趣的问题。然而,我的印象是,从它生成的位序列中猜测生成器是不容易的。您可以得到的是一个模型,它可能是或可能不是原始生成器的近似值。当处理大量生成的序列时,近似将更加接近。
一个简单的技术是创建一个解析树,并在树的每个部分创建一个词汇表。
有些事情是这样的:
Abstract
|--------|
|Ambient , Anisotropic,(Approximation, Attenuation)
|
of
|
xxxx yyyy
| |
using forxxxx ->词汇表
yyyy ->词汇表
发布于 2010-09-11 18:09:08
您可能对基于对齐学习感兴趣的门诺范扎宁。我已经好几年没读过他的论文了,但基本的想法是
对所有常见子字符串的所有组合运行此命令,以找到最佳语法。
这有点像最优压缩算法所做的事情。背后的理论是最小描述长度。
发布于 2010-09-11 16:59:36
有一些方法来学习一种语言的语法,给出了一些基于遗传编程的句子。例如,使用进化方法学习上下文无关语法。
此外,维基百科还列出了其他一些方法。
https://stackoverflow.com/questions/3689855
复制相似问题