我正在从很多网站上抓取数据,我在time.sleep()中使用selenium,但这是一种危险的方式,因为有时我的计算机会变得滞后,这样我就会丢失数据。
如何将代码更改为Wait_For_Element方法以避免丢失信息?
下面是我的代码:
from bs4 import BeautifulSoup
from selenium import webdriver
import time
import urllib2
import unicodecsv as csv
import os
import sys
import io
import time
import datetime
import
我写了下面的代码来提取所有的no。从网页&添加所有的them.but我想编码它不使用正则表达式,所以,请指导我怎么做。链接:
我的代码:
import urllib
import re
from BeautifulSoup import *
html = urllib.urlopen('http://python-data.dr-chuck.net/comments_361585.html ').read()
soup = BeautifulSoup(html)
# Retrieve all of the anchor tags
tags = soup('
我试图从一家公司的上市网站上获取联系信息,网站上使用漂亮的汤进行抓取。
联系人信息存储在带有id=‘valuephone_’或'valuewebsite_‘的span标记中
from bs4 import BeautifulSoup
import requests
url = "https://www.timesbusinessdirectory.com/company-listings"
html=requests.get(url)
soup=BeautifulSoup(html.text,'lxml')
for i in soup.find_al
我用非常棒的html解析器写了一个小包装器。
最近,我试着改进代码,使所有漂亮的汤方法直接在包装器类中可用(而不是通过类属性),我认为对美丽汤解析器进行子类化将是实现这一点的最好方法。
下面是这个类:
class ScrapeInputError(Exception):pass
from BeautifulSoup import BeautifulSoup
class Scrape(BeautifulSoup):
"""base class to be subclassed
basically a subclassed BeautifulSoup wr
我是Python的新手,我尝试从网站中提取xml文件并将其加载到数据库中。我一直在使用Python中的Beautiful Soup模块,但是我不能拉入我想要的特定xml文件。在网站源代码中,它看起来如下所示:
<a href="ReportName I want 20130101.XML">ReportName.XML</a>
<a href="ReportName I want 20120101.XML">ReportName.XML</a>
<<a href="ReportName I do
我得到了一个KeyError: 'About Me'。我已经发现,用于用户的堆栈溢出的转储数据包含一些没有AboutMe变量的用户。通过xml‘’AboutMe‘的迭代工作得很好。但是,如果某个用户没有AboutMe变量,脚本就会崩溃,并给我一个KeyError。
我试着检查是否包含AboutMe。如果是的话,它应该打印不带AboutMe标签的HTML。
如果它不被控制。它应该为这个条目赋值None。
那是我的代码
if element['AboutMe'] is not None:
cleanAboutMe = BeautifulSoup(eleme
我试图从一个网站中提取出所有的产品名称、产品代码、价格和规格,但是没有一个类可以用来深入挖掘html树,所以我必须使用数据类型和数据id,以及其中的所有tr和td信息。但是,如果我现在搜索数据id,它只显示名称,而实际上不显示其中的内容。
现在,代码有点混乱,我已经尝试了尽可能多的解决方案,但到目前为止,它们都没有起作用。
这是我的代码:
from cgitb import text
from pickle import TRUE
from bs4 import BeautifulSoup
import requests
import urllib
import pandas as pd
i
我的Python脚本利用BeautifulSoup在试图从本地加载的文件中解析(从) XML中找到一个元素时获得None:
xmlData = None
with open('conf//test2.xml', 'r') as xmlFile:
xmlData = xmlFile.read()
# this creates a soup object out of xmlData,
# which is properly loaded from file above
xmlSoup = BeautifulSoup(xmlData, "html
没有错误,只是没有打印结果。它应该从网址上打印标题。脚本运行,但在解析balancedheadlines时什么也不返回。我可以交换我寻找的标记p并返回数据,但我相信我没有正确地通过标记来检索标题。
import requests
from bs4 import BeautifulSoup
url = 'http://www.nytimes.com'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')
for ap in soup.find_all('h2', attrs =
所以两天前,我试图解析两个相同的类之间的数据,在他把其他问题抛在脑后,Keyur帮了我很多忙。:D
现在我想获得特定类下的链接,这是我的代码,下面是错误。
from bs4 import BeautifulSoup
import urllib.request
import datetime
headers = {} # Headers gives information about you like your operation system, your browser etc.
headers['User-Agent'] = 'Mozilla/5.0'