我从一个类似问题的答案中获得了灵感: Web crawling using python beautifulsoup 并想出了这段代码: import requestssource = requests.get('https://www.bbc.com/news/election-us-2020-54807899').text
a
link = '<a href="https://google.com/{0}">{0}</a>'.format("search")
link 我这样做,并以字符串形式获得此结果 '<a href="https://google.com/search">search</a>' 我只想看到单词"search“作为输出。我将把它转换成一个数据帧,只希望看到这个词。到目前为止,我看到了整个字符串,甚至在写回excel之后也是如此。
我正在使用beautifulsoup.Some构建一个网络爬行器,网站有javascript内容,不使用urllib3加载,因此我使用them.But的selenium,selenium需要太长的时间和太多的响应,我需要构建一个更高效的网络爬行器,因为我需要为多个网站使用相同的通用爬行器。因此,我在想,如果有什么方法可以找出网站是否只有js内容,那么我将使用selenium,否则我将使用更快的urllib
from