首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >BeautifulSoup,你把我的超文本标记语言放哪了?

BeautifulSoup,你把我的超文本标记语言放哪了?
EN

Stack Overflow用户
提问于 2012-12-07 18:24:11
回答 1查看 2.4K关注 0票数 2

我在python2.7中使用BS4。下面是我的代码的开头(感谢root):

代码语言:javascript
运行
复制
from bs4 import BeautifulSoup
import urllib2

f=urllib2.urlopen('http://yify-torrents.com/browse-movie')
html=f.read()
soup=BeautifulSoup(html)

当我打印html时,它的内容与在chrome中查看的页面的源代码相同。然而,当我打印汤时,它切掉了整个身体,只留下了这个( head标签的内容):

代码语言:javascript
运行
复制
<!DOCTYPE html>

<html>
<head>
<title>Browse Movie - YIFY Torrents</title>
<meta charset="utf-8">
<meta content="IE=9" http-equiv="X-UA-Compatible"/>
<meta content="YIFY-Torrents.com - The official YIFY Torrents website. Here you will be able to browse and download all YIFY rip movies in excellent DVD, 720p, 1080p and 3D quality, all at the smallest file size." name="description"/>
<meta content="torrents, yify, movies, movie, download, 720p, 1080p, 3D, browse movies, yify-torrents" name="keywords"/>
<link href="http://static.yify-torrents.com/yify.ico" rel="shortcut icon"/>
<link href="http://yify-torrents.com/rss" rel="alternate" title="YIFY-Torrents RSS feed" type="application/rss+xml"/>
<link href="http://static.yify-torrents.com/assets/css/styles.css?1353330463" rel="stylesheet" type="text/css"/>
<link href="http://static.yify-torrents.com/assets/css/colorbox.css?1327223987" rel="stylesheet" type="text/css"/>
<script src="http://static.yify-torrents.com/assets/js/jquery-1.6.1.min.js?1327224013" type="text/javascript"></script>
<script src="http://static.yify-torrents.com/assets/js/jquery.validate.min.js?1327224011" type="text/javascript"></script>
<script src="http://static.yify-torrents.com/assets/js/jquery.colorbox-min.js?1327224010" type="text/javascript"></script>
<script src="http://static.yify-torrents.com/assets/js/form.js?1349683447" type="text/javascript"></script>
<script src="http://static.yify-torrents.com/assets/js/common.js?1353399801" type="text/javascript"></script>
<script>
        var webRoot = 'http://yify-torrents.com/';
        var IsLoggedIn = 0  </script>
<!--[if !IE]><!--><style type="text/css">#content input.field:focus, #content textarea:focus{border: 1px solid #47bc15 !important;}</style></meta></head></html> 

我哪里错了?!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-03-23 23:02:15

我也有同样的问题,这解决了我的问题:

代码语言:javascript
运行
复制
soup = BeautifulSoup(html, 'html5lib')

您需要安装html5lib:

代码语言:javascript
运行
复制
pip install html5lib

代码语言:javascript
运行
复制
easy_install html5lib

你可以在这里了解更多关于Beautiful Soup的不同解析器(利弊)的信息:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13761164

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档