给定由用户加载的文件,即:
# This is a comment
# Another one
nameserver 1.2.3.4
nameserver 5.5.6.7
nameserver 8.9.10.11
# A third one
nameserver 12.13.14.15
nameserver 16.17.18.19
我想找到一种方法,检测重复的图案,线条,块,.我们的想法是能够产生两件事:
一种文件类型签名,以便能够立即识别类似的文件。
文件模板,用于从动态值创建类似的文件。
我仍在试图找出如何检测到这个示例文件有:
总是以"#“开头的行
重复行
在爬行RSS提要时,我不希望将重复项添加到我的列表中。问题是,我的if title not in mylist行没有检测到一些复制项,因为它们略有不同。不过,这两条新闻基本上是一样的。看看这两个。
"Kom igjen, norsk ungdom, de eldre trenger oss!"和
"Kom igjen norsk ungdom, de eldre trenger oss"
正如你所看到的,第一个在Kom igjen后面有逗号,第二个没有,在末尾有一个感叹号。
由于没有其他唯一的id使单个项目唯一,我不知道如何检测像上面这样的重复项。