我想从具有相似页面结构的多个页面中提取一些信息。页面的所有URL都保存在一个file.txt中(一行中的每个URL)。我已经创建了代码来从一个链接中抓取所有数据(它可以工作)。
但我不知道如何创建一个循环来遍历txt文件中的所有URL列表,并刮取所有数据。
from bs4 import BeautifulSoup
from urllib.request import urlopen
import requests
import pandas as pd
import numpy as np
import json
import matplotlib.pyplot as plt
from bs
我有下面的脚本,我想从文本文件而不是数组中检索URL。我刚接触过Python,一直被困住了!
from bs4 import BeautifulSoup
import requests
urls = ['URL1',
'URL2',
'URL3']
for u in urls:
response = requests.get(u)
data = response.text
soup = BeautifulSoup(data,'lxml')
我如何告诉我的程序跳过已损坏的/不存在的URL并继续执行任务?每次我运行它时,它都会在遇到不存在的URL时停止,并给出错误:索引错误:超出范围的列表索引。
范围是URL在1到450之间,但是混合中有一些页面被破坏了(例如,URL 133不存在)。
import requests
import pandas as pd
import json
from pandas.io.json import json_normalize
from bs4 import BeautifulSoup
df = pd.DataFrame()
for id in range (1, 450):
u
我正在使用Python3.4,并且我想使用这个脚本。然而,它是为早期版本的Python而设计的,因此不能工作。我希望如果有人能帮我把它改成python 3代码。我尝试将urllib.request作为urllib2导入(因为urllib2显然是针对Python3合并的)
import re
import sys
import urllib.request as urllib2
from bs4 import BeautifulSoup
usage = "Run the script: ./geolocate.py IPAddress"
if len(sys.argv)!=2
我是python的新手,我在使用Beautifulsoup从文本列表中抓取多个url,甚至编码到程序中时遇到了问题。下面是我的代码示例。 import requests
from bs4 import BeautifulSoup
import re
url = 'https://0.0.0.0/directory/'
r = requests.get(url)
soup = BeautifulSoup(r.content, 'html5lib')
with open("1.txt", "w") as f:
我试图抓取德国政党的新闻页面,并将所有信息存储在dataframe中("python初学者“)。当我想将整个文本甚至日期存储到dataframe中时,只有一个小问题。似乎只有文本的最后一个元素(p . /p)将存储在行中。我认为出现这个问题是因为循环上的迭代具有误导性。
import pandas as pd
import requests
from time import sleep
from random import randint
from time import time
import numpy as np
from urllib.request import urlop
下面是我编写的代码,用于从重复次数的数字中得到数字和,直到和小于10为止:
T = int(input())
for i in range(T):
N = int(input())
def P():
M = [int(d) for d in str(N)]
N = sum(M)
if N<10:
print(N)
else :
return P()
P()
在运行此代码时,它会给出一个错误,
import discord
from discord.ext import commands, tasks
import datetime
import requests
import time
from bs4 import BeautifulSoup
client = discord.Client()
r = requests.get("https://www.worldometers.info/coronavirus/country/italy/")
s = BeautifulSoup(r.text, "html.parser")
data = s
我用python编写了一个脚本,用于从网站获取一些数据。看起来我这样做是对的。然而,当我打印数据时,我得到了一个错误的list index out of range。数据在评论中。因此,在我的脚本中,我尝试使用python内置的注释处理方法。有没有人能指出我哪里错了?
网站链接:
到目前为止我已经尝试过的脚本:
import requests
from bs4 import BeautifulSoup, Comment
res = requests.get("replace_with_the_above_link")
soup = BeautifulSoup(res.text
我是从python开始的,当我在python中做一个web抓取时,它不会显示整个列表--我会把代码留在那里,我试图把IMDB中排名的A24电影拉出来。
from cmath import e
from pydoc import synopsis
from bs4 import BeautifulSoup
import requests
try:
source =requests.get('https://www.imdb.com/list/ls024372673/')
source.raise_for_status()
soup=Beautif