我试图构建一个面向公众的API,通过抓取HTML收集数据(页面的内容才是最重要的,而不是页面本身)。我选择使用Django-Rest-Framework作为我的后端。我的问题是:如何组织这个项目的结构,以便Django ORM存储被刮过的内容,然后可以使用Django-Rest的API?访问它。
我研究过Scrapy,但这似乎不那么关注内容抓取,而是更多地关注and爬行。此外,它还部署在自己的项目中,这与Django的引导冲突。
我最好的投注是在运行cronjobs吗?这似乎不雅致。
发布于 2018-04-06 12:18:36
使用芹菜创建异步和定期任务。
如果您需要一些轻量级的东西来抓取,您可以使用BeautifulSoup。这是教程。
总的来说,这是您需要做的:
https://stackoverflow.com/questions/49696558
复制相似问题