首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用Django Rest框架将被刮过的HTML数据作为API提供

使用Django Rest框架将被刮过的HTML数据作为API提供
EN

Stack Overflow用户
提问于 2018-04-06 15:47:26
回答 1查看 1K关注 0票数 0

我试图构建一个面向公众的API,通过抓取HTML收集数据(页面的内容才是最重要的,而不是页面本身)。我选择使用Django-Rest-Framework作为我的后端。我的问题是:如何组织这个项目的结构,以便Django ORM存储被刮过的内容,然后可以使用Django-Rest的API?访问它。

我研究过Scrapy,但这似乎不那么关注内容抓取,而是更多地关注and爬行。此外,它还部署在自己的项目中,这与Django的引导冲突。

我最好的投注是在运行cronjobs吗?这似乎不雅致。

EN

回答 1

Stack Overflow用户

发布于 2018-04-06 20:18:36

使用芹菜创建异步和定期任务。

如果您需要一些轻量级的东西来抓取,您可以使用BeautifulSoup。这是教程

总的来说,这是您需要做的:

  1. 启动普通Django项目。
  2. 在里面加芹菜。
  3. 写些刮擦代码。
  4. 调用您的自定义刮代码从芹菜任务。将已抓取的内容保存到数据库中。
  5. 使用Django-Rest-Framework创建一个API,该API将服务于数据库中的内容。
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49696558

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档