有大量的音乐歌词网站。不久前,我看了一些我加入的乐队的歌词。这让我思考,“这个网站是如何获得所有这些歌词的,我如何才能获得这样的东西?”当时找不到太多,所以我决定写一个程序,基本上解析一个网站的乐队信息和歌词,并将数据放在我创建的数据库中。
但我仍然想知道这些网站是如何获得数据的?我的方式不是非常有效,非常具体的网站,如果网站改变了它的脚本结构,我必须改变我的解析程序。一定有一种更简单的方法。
任何人的想法都是非常感谢的!
发布于 2013-09-06 04:48:26
我猜是JSON或XML文件。从网站下载数据的方式和方法多种多样。wget是一种手段,不是说我宽恕它,但它几乎不是一个秘密
发布于 2015-01-17 07:41:03
大多数网站都是从用户那里获取歌词的。例如,如果歌词在他们的数据库中不存在,他们允许用户创建他们的歌词。当用户创建歌词时,它可能会自动保存到musixmatch的数据库中。有大量的歌词网站允许用户上传歌词。
网站获取数据的另一种方式是通过数据挖掘,就像你说的那样,编写一个解析器/搜索器来浏览别人的网站。
https://stackoverflow.com/questions/18645640
复制相似问题