首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >抓取html文本文档

抓取html文本文档
EN

Stack Overflow用户
提问于 2018-07-19 06:52:04
回答 1查看 43关注 0票数 -3

我需要网络抓取一个特定的网站,但它不允许网络抓取(403错误)。我正在考虑复制我需要的网站的html数据,并将其放入txt文档中,这样我就可以把它当做一个网页来抓取。这是可能的吗,还是有更好的方法来做这件事?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-07-19 08:01:48

如果你有linux/unix,你可以使用wget/curl来下载网页。这会将html源代码复制到根目录下的一个文件中。例如,您可以使用

代码语言:javascript
复制
wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document 

获取此网页的源代码。

要处理它并去掉一些标记,可以使用vim/nano将以下代码复制到一个新文件中,并使用./script.sh filename运行它(在执行chmod +x文件名之后)。您还可以添加其他sed命令来删除其他标记。

代码语言:javascript
复制
cat $1 |
sed "s/<html>//g" |
sed "s/</html>//g" |
sed "s/<head>//g" |
sed "s/</head>//g" |
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51412042

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档