我正在尝试用Python从一个网站上抓取英语问题(我事先已经获得了这样做的许可);我正在使用BeautifulSoup。 英语问题嵌套在标签<div class="question_body">和</div>之间。下面是我的Python代码,它是我用来提取所有英文问题的: import requests
import pandas as pd
from bs4 import BeautifulSoup
for p in range(1,10):
web_page = requests.get('https://www.helpteac
我试图用BeautifulSoup 4.4.0刮一个camelCase中有标记名的xml文件,而find_all似乎找不到它们。示例代码:
from bs4 import BeautifulSoup
xml = """
<hello>
world
</hello>
"""
soup = BeautifulSoup(xml, "lxml")
for x in soup.find_all("hello"):
print x
xml2 = """
&l
我正在尝试用BeautifulSoup转换一大块超文本标记语言文本。下面是一个示例:
<div>
<p>
Some text
<span>more text</span>
even more text
</p>
<ul>
<li>list item</li>
<li>yet another list item</li>
</ul>
</div>
这段代码:
from bs4 import BeautifulSoup
from urllib2 import urlopen
f = urlopen("http://www.groupon.co.uk/").read()
bs = BeautifulSoup(f)
for tag in bs.find_all('ul', {'id': 'jCitiesSelectBox'}):
print tag.li['onclick']
只打印第一个标签,不打印jCitiesSelectBox中的所有标签,我不
我正在使用Python3和BeautifulSoup模块4.9.3版本。我试图使用这个包来练习解析一些简单的HTML。
我拥有的字符串如下:
text = '''<li><p>Some text</p>is put here</li><li><p>And other text is put here</p></li>'''
我使用BeautifulSoup的方式如下:
x = BeautifulSoup(text, "html.parser
问题所在
我正试图解析一些HTML块,以便将相关数据存储在JSON对象中,但我很难理解BeautifulSoup对子标记的处理与我的特定需求发生冲突的方式。
充分的投入:
<p>Here's a paragraph</p>
<ul>
<li>With a list</li>
<li>
<ul>
<li>And a nested list</li>
<li>Within it that ha
我刚刚使用li打印了.find_all('li')的所有内容,并且希望在li标记结束后继续打印'p'标记,比如在html开头或中间不打印'p'标记。'p‘标签或最后的剩余标签。请帮帮忙。基本上需要最后的清单-结束标签之后的一切。
from bs4 import BeautifulSoup
html_doc = """\
<html>
<p>
don't need this
</p>
<li>
text i need
</li>
<li>
我不知道如何编写BeautifulSoup代码,以便它只给出所选标签中的文本。我得到了更多像它的孩子的文字(伦)!
例如:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<div id="left"><ul><li>"I want this text"<a href="someurl.com"> I don\'t want this text</a><p>I don\'t want this e
我对Python非常陌生,无法理解这一点。
我希望有一个脚本来完成以下工作:
earlierRemoves 读取文件在h3标记中查找昨天的日期,或查找与无关的所有日期。
任何洞察力都会受到极大的赞赏--我已经和BeautifulSoup混在一起了,但我不确定我是否有足够的经验或知识把它整合在一起。
下面是我的尝试,它成功地删除了昨天h3标记之间的日期,但我不知道如何处理与前面的h3标记相关联的不同长度的列表项。
from datetime import datetime, timedelta
from bs4 import BeautifulSoup
# parse html
h =
我正在尝试解析一个大的文本文件。文本文件实际上不是XML文件。如下所示的标签:
<tag1>
<tagsomedata> text1 </tagsomedata>
<text> text some pattern1 </text>
</tag1>
<tag1>
<tagsomedata> text2 </tagsomedata>
<text> text some pattern2 </text>
</tag1>
以此类推..
我需要以下形式的输出:
t