我正在尝试使用python在web上刮取一个HTML表。HTML页面中有很多表,但是我只想刮一个特定的表。我正在用漂亮的汤做这个网刮。
我的代码如下所示:
page = get("http://uobgoldprice.com/history/2018/September/10/")
html = BeautifulSoup(page.content, 'html.parser')
for p in html.select('tr'):
if p.text == "ARGOR CAST BAR":
pri
我用熊猫网刮这个网站的,但我只得到3个元素。我怎么能从桌子上得到所有的元素?
import numpy as np
import pandas as pd
#for getting world map
import folium
# Retreiving Latitude and Longitude coordinates
info = pd.read_html("https://www.mapsofworld.com/lat_long/poland-lat-long.html",match='Augustow',skiprows=2)
#converin
我试图从网站上提取信息。我基本上想从网站上提取我能得到的所有信息。所以整张桌子都是理想的。在html中有一个.DataTable元素--我认为它应该很容易刮。我在处理数据时遇到了问题。
我第一次尝试了一个简单的pandas read_html
link = link
tables = pd.read_html(link,header=0)[0]
tables
这不起作用,我想是因为网站实际上不是一张桌子。所以我尝试使用BeautifulSoup,我认为这不会有问题:
import requests
from bs4 import BeautifulSoup
res = requests.ge
我在用美汤刮网。所以,我有HTML代码,它有8个表。我在试着从这些桌子上提取内容。
for row in soup('table')[4].tbody('tr'):
tds = row('td')
print tds[0].string, tds[1].string
它给出了错误:
for row in soup('table')[4].tbody('tr'):
TypeError: 'NoneType' object is not callable
据我所知,soup('t
我已经建立了一个蜘蛛,它刮一个特定的网站,它的工作很好,我用刮刮它。蜘蛛通过遵循“下一页”分页链接,刮掉了我想要刮掉的430个网页。问题是站点/刮刀器也指向第431页,该页是空的。诸若此类。因此,刮刀不会停止刮擦!
有谁能帮我在刮掉所有430页相关的网页后,停止刮网?最后一个相关页面中的html代码是:
我的代码是:
next_page = response.xpath('//a[@id="nextWebshopsPage"]').attrib['href']
if next_page is not None:
yi
从网站上刮桌子。但在这个过程中遇到了空细胞。下面的尝试-除了块是搞砸了数据在最后。另外,也不想排除完整的行,因为即使在缺少了一些属性时,信息仍然是相关的。
try:
for i in range(10):
data = {'ID': IDs[i].get_attribute('textContent'),
'holder': holder[i].get_attribute('textContent'),
'view': view
我很想从这个网站上看到数据:
我想刮整张桌子。我试过用这个:
function myFunction(start) {
var url = "https://finviz.com/screener.ashx?
v=141&f=sh_avgvol_o500,sh_curvol_o2000,sh_price_u50&o=-volume&r="+
start;
var fromText = '<tbody>';
var toText = '</tbody>';
var c
我试图从这个网站上搜集数据:
一开始,熊猫把我弄出了大门,我可以刮桌子,但我却在挣扎着下垂的菜单。我想选择总分框旁边的选项,这些选项是PUB、CIT等。当我检查元素时,它看起来可能是Javascript,而对这些选项进行交互的常用方法不起作用。我已经尝试过贝蒂法尔汤和最近的硒,以选择下降下降的手。这适用于默认的表数据“”
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.support.ui import Select
driver = webdriver.Chrome
我想在网上刮一个特定的财务网。但在我的一生中我都这么做。我不懂HTML,所以这对我来说很困难。我想学习,因为我需要有一个例子,开始在网上刮很多表格。该网络是智利的一个机构,名为"Comisión para financiero“。网址是:"“
有人能告诉我怎么做吗?我知道我可以使用BeautifulSoup和请求模块,但仅此而已。如果有,用Python编写一本关于web抓取的书将是非常有用的。