我正在使用Python的Visual Studio。我想安装用于web抓取的Beatifulsoup。作为解释器安装的Python 3.4。
我安装了BS,但不能工作。你能帮我在Visual Studio中使用Beatifulsoup吗?
我执行了下面的代码,得到了"no module named bs4“错误。谢谢
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/page1.html"
我试着抓取"flashscore.com“的匹配细节,例如"https://www.flashscore.com/match/hEyZ9RHu/#match-summary",然后在discord上的嵌入中重用它们。基本上所有这些都是通过discord机器人完成的,但现在这并不重要。我试图获得一个人的全名,但它似乎不起作用。” @client.command(pass_context=True)
async def analize(ctx, link):
if ctx.guild is not None:
await ctx.send(
我正在尝试首先从一个页面抓取所有的链接,当获取“下一步”按钮的URL,并保持循环,直到没有更多的页面。我一直在尝试使用嵌套循环来实现这一点,但由于某种原因,BeautifulSoup从不解析第二个页面。只有第一个然后就停止了..
很难解释,但下面的代码应该更容易理解我试图解释的内容:)
#this site holds the first page that it should start looping on.. from this page i want to reach page 2, 3, etc.
webpage = urlopen('www.first-page-wi
我正在用Python编写一个web抓取应用程序。我正在抓取的网站有www.someurl.com/getPage?id=x表单的urls,其中x是标识页面的编号。现在,我正在使用urlretrieve下载所有页面
下面是我的脚本的基本形式:
for i in range(1,1001):
urlretrieve('http://someurl.com/getPage?id='+str(i) , str(i)+".html)
现在,我的问题是-可以同时下载网页吗?因为,在这里,我阻塞了脚本,等待页面下载。我可以要求Python打开多个到服务器的连接吗?
我正在使用Python和BeautifulSoup解析HTML页面。不幸的是,对于某些页面(大于400K),BeatifulSoup会截断HTML内容。
我使用以下代码来获取“div”的集合:
findSet = SoupStrainer('div')
set = BeautifulSoup(htmlSource, parseOnlyThese=findSet)
for it in set:
print it
在某一时刻,输出如下所示:
correct string, correct string, incomplete/truncated string ("S
我正在尝试创建一个项目
每隔5分钟就会自动从网站上抓取数据,并将其保存到db烧瓶应用程序中与用户进行交互。用户从db请求数据。
抓取数据的python脚本如下所示:
import os
import time
while True:
os.system(scrape.py)
time.sleep(5*60)
我最初试图在每次用户请求数据时从网站上抓取数据。但我发现它工作得太慢了。
因此,现在我正在尝试制作另一个python脚本,它从网站中抓取数据并自动保存到db中。而烧瓶应用程序只需要从db获取数据。
我的问题是,如何同时运行python脚本和烧瓶应用程序?或者有什么更好的方法来解决