供参考,我正在刮这个网站:
这张桌子是这样的:
我试图刮这个表连同可点击的链接上的PRONI参考头。
我的代码是:
table_elements = driver.find_elements_by_xpath(".//table[@id='gvSearchResults']")
for i in table_elements:
a = pd.read_html(i.get_attribute('outerHTML'))
dfs.append(a[0])
但是数据文件看起来像:
我的下一个计划是单独抓取href,将其作为
我想用HTML敏捷包从youtubelplaylist-link中抓取一个href。这段代码可以工作,但问题是它是一个表,我不知道如何分别抓取每个href。
var html = new HtmlDocument();
html.LoadHtml(new WebClient().DownloadString("https://www.youtube.com/playlist?list=PLirAqAtl_h2r5g8xGajEwdXd3x1sZh8hC"));
var root = html.DocumentNode;
对于使用BeautifulSoup,我仍然有一些不理解的地方。我可以用它来解析网页的原始HTML,这里是"example_website.com":
from bs4 import BeautifulSoup # load BeautifulSoup class
import requests
r = requests.get("http://example_website.com")
data = r.text
soup = BeautifulSoup(data)
# soup.find_all('a') grabs all element