我正在使用BeautifulSoup来抓取。在一个网站上,他们在标题中使用了­。
原始html元素:<h1 itemprop="name">Pen­ne met sa­la­mi en broc­co­li</h1>
当我抓取它时,它返回这个:"Pen�ne met sa�la�mi en broc�co�li“
字符串中的每个�都是一个­
我尝试过string.replace('\u00AD','
我尝试使用BeautifulSoup进行抓取,但它返回[]。然后,当我尝试查看源代码时,出现了div class="loading32"。
如何抓取这类元素?
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
my_url = productUrl # bs4 part
uClient = uReq(my_url) # bs4 part
page_html = uClient.read() # bs4 part
uClient.close() # bs4 p