尽管如此,我还是试图为网络爬行编写一个非常简单的蜘蛛。这是我的第一个方法:首先,我在页面源上做了一个视图来查找HTML元素?。注意:,我需要获取这一行下面的数据:我使用find_all:
soup.find_all('p')[0].get_text() # Searching for tags by class and i
我试着用BeautifulSoup4刮一个网站,但是身体标签后的每一件事都是胡言乱语,并破坏终端。该网站被标记为utf-8,所以我尝试过解码和不同的html解析器,包括html.parser和lxml。ڗV*V┘┌[;≥⎻^N0T4ۓ┐'┴┘S7; њ#─K<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="da" lang