我是网络抓取的新手,目前正在为一个研究项目下载超过10万部电影的字幕文件。每部电影都有一个唯一的IMDb ID (即,“盗梦空间”的ID是1375666)。我在R中有一个包含102524个I的列表,我想从opensubtitles.org下载相应的字幕。每部电影在网站上都有自己的页面,例如,《盗梦空间》有:
下载字幕的链接是通过单击表中名为“电影名称”的第一个链接来获得的,该链接会将您带到一个新页面,然后单击该页面上的“下载按钮”。编辑:我知道我在问一些相当复杂的问题,但任何关于从哪里开始的建议都会很好