我从一个网站上抓取了一个urls列表。我想将这些urls聚类到组中。然后我可以为这个网站生成一个网站地图。相似的urls应该转到相同的组。
IN [1]: http://www.example.org/s/daily/2013-12-09/1392994518.html
OUT[1]: http://www.example.org/s/daily/${date:%Y-%m-%d}/${date:%s}.html
IN [2]: http://www.example.org/torvalds/linux/commit/3bd7bf1f0fe14f591c089ae61bbfa9bd356f17