问抓取html文本文档
EN

Stack Overflow用户

提问于 2018-07-19 06:52:04

回答 1查看 43关注 0票数 -3

我需要网络抓取一个特定的网站，但它不允许网络抓取(403错误)。我正在考虑复制我需要的网站的html数据，并将其放入txt文档中，这样我就可以把它当做一个网页来抓取。这是可能的吗，还是有更好的方法来做这件事？

回答已采纳

发布于 2018-07-19 08:01:48

如果你有linux/unix，你可以使用wget/curl来下载网页。这会将html源代码复制到根目录下的一个文件中。例如，您可以使用

wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document

获取此网页的源代码。

要处理它并去掉一些标记，可以使用vim/nano将以下代码复制到一个新文件中，并使用./script.sh filename运行它(在执行chmod +x文件名之后)。您还可以添加其他sed命令来删除其他标记。

cat $1 |
sed "s/<html>//g" |
sed "s/</html>//g" |
sed "s/<head>//g" |
sed "s/</head>//g" |

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51412042

复制

相似问题

问抓取html文本文档EN