使用python和beatifulsoup抓取在线论坛线程的页面_如何使用不变的URL抓取多个页面- Python和BeautifulSoup_使用BeautifulSoup和python抓取在标记中返回斜杠的页面 - 腾讯云开发者社区

python、flask、web-scraping、waitress

我的烧瓶应用程序进行了一些网络抓取(使用请求库)，然后在html模板(info.html)上显示结果。烧瓶应用程序可以工作，但它只做一次网络抓取(当烧瓶应用程序启动)，这意味着如果我刷新网页后，它仍然显示相同的旧的网络抓取结果与第一次。，我希望网页每次在浏览器中重新加载页面时，都会刷新网页抓取的结果。现在，结果不会刷新，除非我杀死烧瓶进程并再次运行它-这对烧瓶正常吗，如果是，我如何让应用程序再次运行刮擦，每次我重新加载标签？我用的是服务员，基本上代码看起来是这样的： from waitress import serve from flask import Flask, render_te

浏览 0提问于2019-08-30得票数 2

2回答

Visual Studio Python的美汤

visual-studio、beautifulsoup

我正在使用Python的Visual Studio。我想安装用于web抓取的Beatifulsoup。作为解释器安装的Python 3.4。我安装了BS，但不能工作。你能帮我在Visual Studio中使用Beatifulsoup吗？我执行了下面的代码，得到了"no module named bs4“错误。谢谢 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page1.html"

浏览 21提问于2017-01-10得票数 0

2回答

从论坛中的主题中提取特定字段

python、regex、web-scraping、scrapy、forums

我正在做一个数据挖掘项目，我需要在论坛的线程中分析讨论的进展。我感兴趣的是提取信息，如帖子的时间，帖子作者的统计数据(no。帖子、加入日期等)、帖子文本等。但是，在使用标准的抓取工具(如python中的Scrapy )时，我需要编写正则表达式来检测页面的html源中的这些字段。由于这些标签随论坛类型的不同而不同，因此解决每个论坛的正则表达式成为一个主要问题。有没有这样的正则表达式的标准库，以便可以根据论坛的类型使用它们？或者，是否有其他技术可以从论坛页面中提取这些字段。

浏览 1提问于2011-04-02得票数 0

回答已采纳

1回答

以编程方式滚动外部网页以加载内容

javascript、jquery、python

我正在尝试抓取一个(非常长的)网页的一些内容。我使用的是Python的BeatifulSoup库，但并不局限于Python。我面临的问题是，页面只加载了一小部分内容，一旦用户滚动到页面的顶部/底部，就会加载更多的内容。有一个javascript函数，当滚动条点击顶部/底部时调用，触发服务器加载更多数据。有没有一种方法可以让我以编程方式滚动页面，或者调用让页面加载更多数据的函数，这样我就有了所有可用的内容？我知道我可以只使用VBScript来控制窗口和滚动，但理想情况下，我正在寻找一种更优雅的解决方案，允许我同时提取数据和滚动页面。

浏览 0提问于2017-08-01得票数 1

2回答

python中的网站抓取，但是这个类有一个不同的类名。(discord.py也是)

python、beautifulsoup、discord.py、discord.py-rewrite、re

我试着抓取"flashscore.com“的匹配细节，例如"https://www.flashscore.com/match/hEyZ9RHu/#match-summary"，然后在discord上的嵌入中重用它们。基本上所有这些都是通过discord机器人完成的，但现在这并不重要。我试图获得一个人的全名，但它似乎不起作用。” @client.command(pass_context=True) async def analize(ctx, link): if ctx.guild is not None: await ctx.send(

浏览 21提问于2021-02-01得票数 1

2回答

BeatifulSoup，WebScraping，Imgaes

python

嗨，我正在学习用python进行网络抓取，当我试图在上刮的时候，我遇到了一个问题--从一个名为pexel的网站上刮来的图片--终端上什么也没有出现，但是当我尝试另一个代码相同的网站时，它起作用了，为什么会这样呢？这是代码，这两种状态都是相同的，我只更改了URL。 from bs4 import * import requests as rq import os req = rq.get('https://unsplash.com/s/photos/earth').text soup = BeautifulSoup(req,'lxml') links = []

浏览 4提问于2021-06-04得票数 0

2回答

Python BeautifulSoup -遍历多个页面

python、web-scraping、beautifulsoup

我正在尝试首先从一个页面抓取所有的链接，当获取“下一步”按钮的URL，并保持循环，直到没有更多的页面。我一直在尝试使用嵌套循环来实现这一点，但由于某种原因，BeautifulSoup从不解析第二个页面。只有第一个然后就停止了.. 很难解释，但下面的代码应该更容易理解我试图解释的内容:) #this site holds the first page that it should start looping on.. from this page i want to reach page 2, 3, etc. webpage = urlopen('www.first-page-wi

浏览 0提问于2012-04-27得票数 2

回答已采纳

2回答

网络抓取每个论坛的帖子(Python，Beautifulsoup)

python、web-scraping、pycharm、nested-loops

你好，又一次，堆叠的伙伴们。简短描述..我正在使用Python从一个汽车论坛上抓取一些数据，并将所有数据保存到CSV文件中。在其他stackoverflow成员的帮助下，他们设法在所有页面中挖掘特定主题，收集每个帖子的日期、标题和链接。我还有一个单独的脚本，我现在正在艰难地实现(对于找到的每个链接，python都会为它创建一个新的汤，抓取所有帖子，然后返回到上一个链接)。我非常感谢任何其他的技巧或建议，因为这是我第一次使用python，我认为可能是我的嵌套循环逻辑搞砸了，但多次检查对我来说似乎是正确的。下面是代码片段： link += (div.get('href'))

浏览 56提问于2017-03-02得票数 1

回答已采纳

1回答

如何使用Scrapy在论坛上抓取其他特定页面？

scrapy

我有一个从论坛抓取一些指南的Scrapy Crawler。我试图抓取数据的论坛有很多页面。问题是我无法提取我想要的链接，因为没有特定的类或ids可供选择。desc&page=1的结构是这样的:很明显，我可以把url后面的数字改为2，3，4等等，但我想知道这样做的最佳选择是什么。我如何才能做到这一点？ PS:这是爬行器代码

浏览 0提问于2012-09-01得票数 0

回答已采纳

3回答

如何使用python同时下载网页？

python、python-2.7

我正在用Python编写一个web抓取应用程序。我正在抓取的网站有www.someurl.com/getPage?id=x表单的urls，其中x是标识页面的编号。现在，我正在使用urlretrieve下载所有页面下面是我的脚本的基本形式： for i in range(1,1001): urlretrieve('http://someurl.com/getPage?id='+str(i) , str(i)+".html) 现在，我的问题是-可以同时下载网页吗？因为，在这里，我阻塞了脚本，等待页面下载。我可以要求Python打开多个到服务器的连接吗？

浏览 14提问于2015-05-18得票数 1

回答已采纳

1回答

在Python中抓取大量urls

python、asynchronous、web-scraping

我有630,220个urls需要打开和抓取。这些urls本身已经被抓取了，而且抓取它们要容易得多，因为每个抓取的页面将返回大约3500个urls。为了抓取这630,220个urls，我目前正在使用线程在Python中进行并行抓取。使用16个线程，抓取200个urls需要51秒。因此，我需要44个小时来抓取所有630,220个urls，这似乎是处理这个问题的一种不必要的耗时和非常低效的方法。假设服务器不会过载，有没有一种方法可以每秒异步发送1000个请求？这将把总的抓取时间减少到大约10分钟，这是相当合理的。

浏览 4提问于2016-11-17得票数 0

1回答

Selenium强制加载整个页面

python、selenium、selenium-webdriver

我在python中使用selenium，并且我试图抓取这个页面。https://www.vexforum.com/u?period=all。我希望能够获得这个论坛上所有大约40,000个用户的数据，但它最初只加载了50个。您可以继续在页面上滚动以加载论坛的所有成员。有没有办法在一开始就请求所有40k成员的整个页面？感谢您能提供的任何帮助！

浏览 18提问于2021-01-22得票数 1

1回答

在无头模式和无头模式python selenium之间的不同结果

python、selenium、beautifulsoup

我正在使用chromedriver，selenium和BeatifulSoup抓取下面的网页： https://www.rappi.com.co/tiendas/exito-express/s?store_type=express_exito&query=man%C3%AD&search_type=TYPED&origin=general 我使用selenium与网页进行交互，在确保显示了整个网页之后，我使用BeatifulSoup来定位和提取信息我使用BeatifulSoup查找此元素 img = n.find("img", {"class

浏览 48提问于2021-02-06得票数 0

1回答

在不同的计算机上编写Python脚本

python、cloud、screen-scraping、scrapy、mechanize-python

这里是Python新手。我正在寻找一种方法来保存我的python脚本在线，以便我可以从工作和在家工作他们。我想构建一些(简单的) web抓取工具，使用机械化，也许是Scrapy。在做了一些研究之后，我想我需要的是一个在线IDE (对吗？)我找到了c9.io。问题是c9.io被证明太慢了，即使对于像打开和阅读页面这样非常简单的任务来说也是如此。你对我在网上写、保存和运行网络抓取脚本有什么想法吗？请记住，我无法在工作中使用命令行保存或运行脚本。我需要网上的东西。

浏览 2提问于2013-08-13得票数 0

回答已采纳

2回答

Python 3 web抓取选项

python-3.x、web-scraping

我是Python的新手，所以很抱歉这是一个新手问题。我正在尝试构建一个涉及web抓取的程序，我注意到Python3的web抓取模块似乎比Python2.x系列少得多。美汤、机械化和scrapy -这三个模块向我推荐--似乎都是不兼容的。我想知道这个论坛上有没有人有使用python3进行网络抓取的好选择。任何建议都将不胜感激。谢谢，威尔

浏览 1提问于2011-08-11得票数 5

3回答

有没有一种方法可以使用可读性和python来提取文本，而不是HTML？

python、readability、text-extraction、html-content-extraction

我需要在运行时，在服务器端从一个随机网页中提取纯文本。我使用Google和Readability端口。有很多这样的情况。早期的，基于BeautifulSoup 基于gfxmonk的使用lxml而不是BeautifulSoap，这使得它(按照minvolai的说法，请参阅项目页面)更快，尽管它引入了对lxml的依赖。。和minvolai一样，它依赖于lxml。还依赖于来检测编码。我使用Yuri的版本，因为它是最近的，似乎正在积极开发。我使用Python2.7成功地使它在上运行。现在的“问题”是它返回HTML，而我需要纯文本。中的建议是使用BeatifulSoup。如果

浏览 1提问于2012-06-22得票数 6

回答已采纳

5回答

Ubuntu -如何在Python3.3而不是Python2.7上安装Python模块(BeautifulSoup)？

python、python-2.7、ubuntu、beautifulsoup、python-3.3

我有以下代码(用BS4文档编写)： from bs4 import BeautifulSoup 当我运行脚本(使用python3)时，我得到了错误： ImportError: No module named 'bs4' 因此，通过以下方式安装了BeatifulSoup： sudo pip install BeatifulSoup4 但是，当我再次尝试运行脚本时，我会得到相同的错误。实际上，BS4安装在： BeautifulSoup4 in /usr/local/lib/python2.7/dist-packages 但是我想在python3.3中安装和使用它(因

浏览 9提问于2014-10-22得票数 19

回答已采纳

2回答

生产者/消费者的特殊情况

ruby、multithreading、algorithm、design-patterns

我试图同步一个特殊的生产者/消费者问题。这就是问题所在：我有两个队列link_queue, page_queue。线程class ProducePages_RequireLinks (称为class A)，顾名思义，会消耗来自link_queue的项目，并将每个链接中任意数量(>=1)的页面放入page_queue。相反，主线程class ProduceLinks_RequirePages (称为class B)消耗来自page_queue的页面，并将任意数量的链接(>=0)排队到link_queue中。现在，class B生成链接的速度可能比class A生成页面的速度快

浏览 2提问于2011-09-01得票数 3

2回答

不同类的Soup.Find

python、beautifulsoup

我有一个关于python的问题，我只想抓取一个带有不同属性类的页面，并在它们上循环，所以这是我需要的html代码： ‘：“类: a” ‘'div'：“类: b” 'h1‘：“类: c” 页面中只有一个，所以我尝试使用"else if“和" try”语句，但我仍然不明白。此代码仅适用于一个类： #!/usr/bin/env python import csv import requests from bs4 import BeautifulSoup urls = csv.reader(open('link.csv')) for

浏览 2提问于2017-01-29得票数 1

回答已采纳

2回答

漂亮的汤，Python和HTML的自动页面截断？

python、beautifulsoup

我正在使用Python和BeautifulSoup解析HTML页面。不幸的是，对于某些页面(大于400K)，BeatifulSoup会截断HTML内容。我使用以下代码来获取“div”的集合： findSet = SoupStrainer('div') set = BeautifulSoup(htmlSource, parseOnlyThese=findSet) for it in set: print it 在某一时刻，输出如下所示： correct string, correct string, incomplete/truncated string ("S

浏览 4提问于2010-09-14得票数 1

回答已采纳

5回答

如何提取int？

python、python-3.x、string、web-scraping、integer

我是栈溢出的新手，我正在用python写一个脚本，我有一个疑问可以解决，我需要创建一个带有产品价格的变量，到目前为止，我已经收集了欧元的十进制价格，这要归功于网络抓取。 import bs4, requests link = "https://hookpod.shop/products/hookpod-screw-adapter" response = requests.get(link) response.raise_for_status() soup = bs4.BeatifulSoup(response.text, 'html.parster')

浏览 7提问于2021-09-17得票数 1

1回答

有人能推荐一个网络蜘蛛吗？

web-crawler

有没有可以抓取论坛内容的网络蜘蛛？我的公司不提供互联网连接，所以我想抓住一个论坛的线索，然后我可以看看公司的内容。我试过WebLech，它只能抓取静态页面。

浏览 0提问于2010-09-15得票数 0

回答已采纳

1回答

让搜索引擎区分网站按时间顺序更新(如在论坛中)

optimization、time、search-engine

我发现搜索引擎可以为论坛网站等按时间顺序查找页面，提供了显示过去24小时的结果的选项，比如上周、上个月、去年等等。我知道这些网站需要不断的爬行，以提供这些更新，但我有技术上的疑问，什么样的结构，标签或任何我需要做的事情来实现我的网站。我看到，在客户端(也是端搜索引擎在)，内容基本上显示为静态数据，已经由服务器处理过了，所以问题是：如果我有一个网站，我为它不断更新和添加内容到索引页面，使它很容易看到，我甚至添加链接，时间和日期为新网页的文本，为什么这些更新不显示在搜索引擎？。，我需要添加XML/RSS提要，还是其他什么？论坛和具有时间顺序更新的站点如何实现允许搜索引擎列出按小时、天数等

浏览 1提问于2012-09-20得票数 1

回答已采纳

1回答

使用线程或crontab重新启动Python

python、django、multithreading

我编写了一个函数，可以抓取新闻文章并对其进行分类。我希望这个功能每10分钟重新启动一次，目的是获得最新的文章。我编写了一个Python脚本，在线程模块的帮助下： import threading def run(): do_it() if not END: threading.Timer(600.0, run).start() END = False threading.Timer(600.0, do_it).start() 它可以很好地处理Python空闲。现在我在不同的论坛上看到，"crontab“就是为此目的而提出来的。既然我计划在网络上托管这个应

浏览 1提问于2013-11-17得票数 2

回答已采纳

2回答

使用jquery上载Ajax文件不起作用

javascript、php、jquery、ajax、file-upload

我在网上抓取了这段代码(sanwebe.com)，我试图用它作为“传单向导”的基础，在该向导中，我们的客户可以将他们的公司标识上传到传单上，然后打印出来，但我无法完全让它发挥作用。它不停地说“上传文件出错！”也不显示照片。我尝试过许多文件类型，它们都包含在所接受的文件类型中。我认为可能存在问题的两个主要文件是index.php和/或processupload.php。有一个在线演示，似乎可以很好地上传和显示图像，但我下载的版本不起作用。我调用了godaddy，并更新了php.ini文件中的建议设置(在php.ini文件中的注释中)，并重新启动了我们的服务器，但仍然没有成功。链接到在线演示(工

浏览 0提问于2015-09-11得票数 0

回答已采纳

2回答

从网页上抓取数字值？

php、regex、web-scraping

我想从一个网站上抓取17个值。这是包含数据的页面的url：在页面的左下角有一个标题为“在线播放列表”的无序列表，我想要抓取包含此类信息的每个列表项目中的球员数量。数字只需为数字，即不能有逗号。

浏览 0提问于2011-02-05得票数 1

回答已采纳

1回答

如何将python用于webservice

python、web-services、parameters、scrapy

我对python非常陌生，我只是在玩抓取框架，用来抓取网站和提取数据。我的问题是，如何将参数传递给在线托管的python脚本。例如，我提出以下请求: mysite.net/rest/index.py 现在我想传递一些类似于php的参数，比如*.php?id=.

浏览 2提问于2010-10-06得票数 0

回答已采纳

1回答

从ajax网站获取响应数据的python程序？

python、web-scraping、beautifulsoup、python-requests、scrapy

请注意，我对编程很陌生。这些是我在使用python学习web抓取时遇到的问题。我使用的网站是 (用于移动、dth、电费的在线充电和支付站点)，但我只得到了403个在抓取时的响应。然后，我明白这可能是因为网站使用ajax。我制作程序的目的是接收用户输入的移动号码，然后在网站上传递移动运营商搜索值，页面加载当前操作员和圆圈，我想在我的程序中显示。如果将移动电话号码移植到另一个操作员，python电话号码模块是无用的。任何帮助都是非常感谢的。谢谢。

浏览 2提问于2021-12-30得票数 0

回答已采纳

1回答

从没有类的<span>中抓取'href‘

python、web-scraping

我对使用BeatifulSoup和python非常陌生，我很难在span中获得一个href，但是它没有类。下面的部分代码来自phpbb论坛，我没有问题刮掉所有的href，但出于某种原因，我想不出如何抓取范围内的内容。 <div class="col-md-48 post-text" data-topic="6693rw38" data-forum="2"> <br> <br> <a href="http://imgshare.net/img-5ba3dt3ad8a24.html" targ

浏览 2提问于2020-12-17得票数 2

回答已采纳

1回答

Find_all_siblings在Python Beautiful Soup的论坛帖子中找不到所有的表行兄弟

python、beautifulsoup、siblings

我正在抓取一个论坛。然而，相同的代码从一个页面上抓取了所有15个帖子，但在第二个论坛页面上只有12个帖子。第二个论坛页面也有15个帖子。我不明白为什么它没有刮掉所有的帖子。 first_tr = page_soup.find_all('table' ,{'class' : 'forumline'})[0].select('tr')[2] all_tr = [first_tr] + first_tr.find_next_siblings('tr') 我输出了all_tr，发现它缺少第二个论坛页面的最后三个表行。我的f

浏览 0提问于2018-04-30得票数 0

1回答

为什么python tesserocr不在AWS Batch上使用4个CPU核心？

docker、amazon-ecs、python-tesseract、aws-batch

我正在尝试让tesserocr python库在4核上运行。根据tesseract文档，我知道它最多支持4个内核。我在一个有8个vCPU的c4.x2large实例上的AWS Batch (基于amazonlinux的docker容器:最新图像)中运行了一个tesserocr python3.x作业，所有作业在提交时都被分配给了批处理作业。基准测试显示CPU最多为30%，即2.5个vCPU，即约1.25个物理核心(每个2个vCPU大致为1个物理核心)。我还尝试了OMP_NUM_THREADS=4、OMP_THREAD_LIMIT=4环境变量(基于一些在线论坛)，但没有任何值对性能产生任何影响

浏览 0提问于2018-12-17得票数 0

2回答

如何检查联机和脱机用户asp.net

c#、asp.net、sql-server、video-streaming

我正在开发一个网络电视和视频流门户网站，它只能被注册用户访问。现在，我要检查保存在数据库中的在线/脱机用户列表。用户不需要像看电视频道或视频那样在页面上移动，所以我认为最后的活动时间是没有帮助的。我需要平一下mac地址或类似的东西吗？我搜索了所有的论坛，但仍然没有找到合适的解决方案。

浏览 3提问于2013-12-12得票数 1

回答已采纳

1回答

当我使用beatifulsoup (python)请求HTML时，我得不到值

beautifulsoup

我目前正在构建自己的“股票”跟踪器。在抓取时，我很难从网站中提取正确的值。在在线html-code上，h2有一个值，但是当我请求它时，h2没有带上这个值。下面是我的代码： import requests from bs4 import BeautifulSoup html_text = requests.get("https://npinvestor.dk/kursinfo/vis-aktie/172.1.MAERSK-B:2").text soup = BeautifulSoup(html_text, "lxml") stock = soup.fin

浏览 16提问于2021-01-26得票数 1

2回答

如何在不锁定的情况下将数据从线程输出到另一个线程？

multithreading、message-queue、deadlock、directshow

我正在开发一个DirectShow应用程序。我遇到了一个死锁问题，这个问题似乎是由从线程调用的回调函数中获取锁引起的。这是我在MSDN论坛上问的问题：现在我必须避免在线程中获得锁。但问题是，我必须将音频输出到另一个线程，如何在没有锁定的情况下将数据放入另一个线程？有人告诉我，我可以使用PostMessage of win32 sdk将数据发布到另一个线程。但是，为了得到消息，我必须运行一个windows程序。我的程序是Python扩展模块。这可能很难添加一个循环来提取消息。因此，我认为另一种方式可以在线程之间传递数据，而不需要锁定。(实际上.不能锁定生产者线程，但使用者线程可以这样做。)

浏览 3提问于2009-02-09得票数 0

回答已采纳

2回答

在Python中设计多进程爬行器

python、multithreading、web-crawler

我正在用Python开发一个多进程爬行器。它应该开始抓取一个页面的链接，并从那里开始工作。具体地说，顶级页面包含类别列表、这些类别中的第二级页面事件以及事件中的最终第三级页面参与者。我不能预测会有多少类别，事件或参与者。我有点困惑于如何最好地设计这样一个爬虫，尤其是如何知道它何时完成爬行(它应该继续爬行，直到它发现并检索到所有相关的页面)。理想情况下，第一次抓取应该是同步的，其他一切都是异步的，以最大限度地并行解析并添加到数据库中，但我被困在如何确定抓取何时完成的问题上。根据并行进程，特别是上面的问题，你会建议我如何构建爬行器？

浏览 1提问于2009-11-24得票数 3

回答已采纳

2回答

在下面的场景中，我应该使用线程安全集合吗？

c#、multithreading、collections、async-await、thread-safety

我正在从一个网站上抓取内容。我有一个async方法，它递归地访问页面并从页面中抓取内容。在这个递归函数中，我传递一个HashSet和一个List。List收集所有页面的内容，Hashset存储已经访问过的链接，这样我们就不会再访问它们了。这一职能的有关部分如下： public async Task ScrapeContentRecAsync(string uri, List<Content> allContent, HashSet<string> alreadyVisited) { ... var pageHtml = await httpClient.GetS

浏览 1提问于2020-06-12得票数 1

回答已采纳

3回答

同时运行python脚本和烧瓶应用程序

python、flask

我正在尝试创建一个项目每隔5分钟就会自动从网站上抓取数据，并将其保存到db烧瓶应用程序中与用户进行交互。用户从db请求数据。抓取数据的python脚本如下所示： import os import time while True: os.system(scrape.py) time.sleep(5*60) 我最初试图在每次用户请求数据时从网站上抓取数据。但我发现它工作得太慢了。因此，现在我正在尝试制作另一个python脚本，它从网站中抓取数据并自动保存到db中。而烧瓶应用程序只需要从db获取数据。我的问题是，如何同时运行python脚本和烧瓶应用程序？或者有什么更好的方法来解决

浏览 5提问于2022-01-14得票数 -1

1回答

BeautifulSoup中的汉字编码错误？

python、python-2.7、encoding、beautifulsoup

我想使用BeatifulSoup从一个网站获取表格中的数据，但是它不能正确地抓取汉字。这是我的密码： #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib2 from bs4 import BeautifulSoup html=urllib2.urlopen("http://www.515fa.com/che_1978.html").read() soup=BeautifulSoup(html,from_encoding="UTF-8") print soup.prettify() 汉字显示如下：

浏览 3提问于2015-08-24得票数 2

回答已采纳

2回答

是否需要为每个目标站点编写抓取器？

python、html、web-scraping、beautifulsoup、html-parsing

我是个刮东西的新手。我写了一个刮板它将擦伤 Maplin 商店。我使用Python语言和BeautifulSoup来抓取存储。我想问的是，如果我需要清理一些其他的eCommerce商店(比如亚马逊、Flipkart)，我是否需要定制我的代码，因为它们具有不同的HTML ( 和名字是不同的，另外还有其他东西)。所以，我写的刮板不适用于其他eCommerce商店。我想知道比价网站是如何从所有在线商店中抓取数据的？他们对不同的在线商店有不同的代码，还是有通用的代码？他们会研究每个在线商店的HTML模式吗？

浏览 40提问于2014-12-28得票数 7

回答已采纳

5回答

是否同时下载多个页面？

python、concurrent-processing

我想用Python编写一个脚本，它可以从数据库中抓取url，并同时下载网页，以加快速度，而不是等待每个页面一个接一个地下载。根据的说法，Python不允许这样做，因为名为的东西可以防止多次加载相同的脚本。在花时间学习Twisted框架之前，我想确保没有更简单的方法来完成上面需要做的事情。谢谢你的建议。

浏览 2提问于2009-09-29得票数 2

1回答

如何使用Python解析动态页面？

python、html、angularjs、beautifulsoup

我正在使用Ghost和BeautifulSoup解析一个HTML页面。我遇到的问题是，这个页面的内容是动态的(用angularJS创建)。在开始时，html只显示类似“请等待！页面加载”之类的内容。几秒钟后，html的内容就会出现。使用Ghost和BeatifulSoup，我只获得加载页面的HTML代码，只有2个小div。URL保持不变。是否有可能等到加载了“真实”内容？

浏览 3提问于2016-03-25得票数 1

回答已采纳

1回答

领域驱动设计-存储库和聚合根

repository、domain-driven-design、entity、aggregate

我有一个领域模型，其中包含一个论坛。我有论坛，帖子和帖子实体。论坛是一个独立的实体。它不包含线程作为聚合的一部分。这是因为线程不属于特定论坛(您可以将线程移动到不同的论坛)。我不知道是否应该将帖子建模为线程聚合的一部分。没有线程，帖子就不可能存在。删除一个线程，您必须删除这些帖子，这告诉我要使posts成为线程聚合的一部分。唯一的问题是，在编辑文章时，还可以独立地获取它们。编辑一篇帖子的时候。因此，我认为拥有一个post存储库对这个目的是有益的，而不是必须获取线程，然后通过线程实体上的方法获取正确的帖子。拥有一个单独的post存储库的唯一方法是，在添加post (即addPost(

浏览 0提问于2009-10-27得票数 4

6回答

编写更快的Python爬行器

python、web-crawler

我正在用Python编写一个爬虫来抓取一个站点。问题是，我需要检查大约250万个页面，所以我真的需要一些帮助来优化它的速度。我需要做的是检查页面的一定数量，如果它被发现，记录到该页面的链接。爬行器非常简单，它只需要对大量页面进行排序。我对Python完全陌生，但以前用过Java和C++。我还没有开始编写代码，所以任何关于要包含的库或框架的建议都会很棒。我们也非常感谢任何优化技巧。

浏览 0提问于2009-12-06得票数 6

回答已采纳

1回答

如何将包含多个页面的HAR转换为JSON

json、web-scraping、har

我正在做一个研究项目，我需要能够从大量的Tiktoks中抓取标签。Tiktok已经采取了很多措施来对抗web抓取的正常方法，但是我发现我可以从chrome下载HAR文件并从中提取哈希标签。我发现的每个HAR到JSON python或java模块要么不工作，要么在输出JSON文件中没有hashtag信息。大多数在线HAR查看器只显示标题和参数，而我需要原始的JSON文件才能访问哈希标签。我可以通过 chrome扩展来访问它，但是有了大量的数据，我需要查看它就崩溃了。我需要从单个HAR文件中获取多个web页面的原始JSON。任何帮助都是非常感谢的！

浏览 4提问于2022-11-06得票数 0

1回答

如何停止Django线程

javascript、jquery、python、ajax、django

我有一个网站，使用Jquery和Python。我有一个执行python函数的Ajax请求。在Python函数内部，有一个执行C++库的Linux接口。我遇到的问题是，当我创建两个通过C++从AJAX执行Python库的请求时。加载C++任务最多可能需要2分钟。但是，当我离开当前页面时，这很好，因为前一个任务在技术上还没有完成，Django不会加载一个新页面。有没有什么方法可以确定页面是否正在导航，如果是，那么调用python来停止它的功能，这样我就可以有一些响应性。我想到的一种方法是线程化，然而，当我执行这种方法时，如果我在线程仍在执行时导航离开，我可以从调试器看到它返回数据，即使我不

浏览 1提问于2011-11-23得票数 1

回答已采纳

1回答

使用“美丽汤”从特定用户那里刮取论坛帖子

python、html、web-scraping、forum

我是一个完整的python新手，在我的第一个项目中，我试图在论坛线程中从一个特定的用户那里抓取帖子，使用python脚本，然后将它粘贴到一个原始文件上。我正在使用python编码语言和漂亮的汤编码库，但是在对线程上的特定用户进行过滤时遇到了一个障碍，我应该如何过滤我的脚本，以便只保存特定用户在python中的帖子？这是我要废除的论坛

浏览 3提问于2017-04-25得票数 1

回答已采纳

2回答

从vBulletin获取在线用户数

php、wordpress、vbulletin

我正在重新设计一个基于Wordpress的网站的模板，这是与vBulletin论坛的桥梁。我如何才能获得论坛页面上显示的在线用户数量，以便将他们插入另一个页面？是否有某种API可以与之交互？

浏览 2提问于2010-02-05得票数 1

1回答

使用python与在线表单进行交互，并与与"type=button“输入关联的javascript进行交互

python、mechanize、spidermonkey

我需要填写一个在线表单，其中有按钮运行java-script在后台，我已经成功地填写了所有可用字段使用python机械化模块的数据。我读到过我可以用蜘蛛猴来完成这样的任务。单击名为“浏览”的按钮时，将弹出一个窗口，选择存储在服务器上的一个文件，并将该文件的Id返回到原始网页。以下是该页面的HTML和javascript：你能给我推荐一个执行这个任务的方法吗?因为我不熟悉web抓取，也不知道用哪个模块来模拟javascript在python中所做的事情。

浏览 0提问于2014-07-10得票数 0

1回答

SQL -如何计算论坛页数

sql、derby、forum

我正在做一个类似的功能，论坛有，页数在每个论坛部分。我的想法和作用如下：论坛可以有一个或多个部分(子论坛)。每个部分可能有零个或多个线程。每个线程都有一个数据库生成的唯一ID (1，2，3.) 每页只能显示15个线程。一个部分可能有一个或多个页面。每个线程可能有一个或多个页面。除了上面提到的最后两件事外，我已经完成了所有的事情。然而，页数对我来说是个问题。我的想法是：使用Count(key)肯定会完成这项工作，但是，一旦部分有了大量线程，我就会担心性能。找到最后的ID，并除以它的15个也工作，但它将是不准确的很快。是否有可能实

浏览 0提问于2013-11-12得票数 0

回答已采纳

1回答

用回调实现异步触发和遗忘操作

jquery、asp.net-mvc、asynchronous、windows-services

我有一个论坛的Mvc3应用程序，在那里问题也可以通过电子邮件发布。从不同帐户获取电子邮件、解析电子邮件并插入数据库的过程非常缓慢。起初，我想创建一个单独的Windows服务，其中包含一些计划好的进程，每隔几秒钟就会处理一次单独的电子邮件。我来是想，一个更好的方法是，当用户到达论坛页面时，启动电子邮件检查/解析过程。因此，情况将是：用户打开mvc应用程序中的页面论坛区域--启动异步进程，完成所有缓慢的操作，在加载页面时，可以通过jquery/javascript调用控制器来启动该过程。控制器将调用电子邮件解析服务，并将立即返回(触发和忘记)。在工作期间，(也是从其他用户到启动电子邮件处理

浏览 4提问于2011-02-20得票数 1

回答已采纳