抓取一个有多个表而没有类的网站

文章/答案/技术大牛

发布

3回答

、、

我需要刮掉底部标有'Fielding‘的桌子。我无法通过网站上的第一张桌子。该站点有一些奇怪的HTML，似乎不容易抓取。Link here 我尝试使用带有类'stats-fullbox clearfix‘的表，但它只给出了第一个表。如果我使用“stats-wrapper clearfix”，它会给我整个网站。我只需要最底层的定位桌。我将对所有的

浏览 9提问于2019-04-30得票数 2

回答已采纳

2回答

我是个刮东西的新手。我写了一个刮板它将擦伤 Maplin 商店。我使用Python语言和BeautifulSoup来抓取存储。我想问的是，如果我需要清理一些其他的eCommerce商店(比如亚马逊、Flipkart)，我是否需要定制我的代码，因为它们具有不同的HTML ( 和名字是不同的，另外还有其他东西)。所以，我写的刮板不适用于其他eCommerce商店。我想知道比价网站是如何从所有在线商店中抓取

浏览 40提问于2014-12-28得票数 7

回答已采纳

1回答

从多个页面中抓取表格

、

我想从网站上抓取数据。这个表扩展到多个页面上，但是url没有像page=3这样的东西，所以我不能遍历各个页面来获取数据。有没有其他方法可以像这样抓取数据，而不会在不同的页面上循环？如何从python访问不同的页面来抓取数据？

浏览 19提问于2018-03-04得票数 0

1回答

如果网站有多个表，如何抓取特定的表？

、、

我最近写了一个脚本，从一个网站()上抓取一些财务数据，这样我就可以跟踪项目交易量的变化。我过去常常使用它从'table20‘中获取值。soup = BeautifulSoup(current_page, 'html.parser')但是，tbl现在是<em

浏览 0提问于2020-03-23得票数 0

6回答

给定多个类的BeautifulSoup findAll()？

、、、

我想从一个网站上抓取一个项目列表，并保留它们呈现的顺序。这些项目组织在一个表中，但它们可以是两个不同的类之一(按随机顺序)。有没有办法提供多个类，并让BeautifulSoup4找到任何给定类中的所有项？我需要实现这段代码所做的事情，除了保持项目在源代码中的顺序： items = soup.findAll(Tr

浏览 1提问于2013-09-11得票数 74

2回答

如何阻止在Drupal网站上的抓取？

、

我有一个Drupal网站，上面有大量的数据。但是，由于Drupal类和ID非常一致，人们可以很容易地抓取站点。我在为失败的事业而战吗？我不确定“抓取”是否是官方术语，但我指的是人们编写脚本的过

浏览 2提问于2015-03-23得票数 0

回答已采纳

6回答

谷歌机器人开始爬行的地方？

、、

比方说，如果我注册了一个域名，并已发展成为一个完整的网站。Googlebot从哪里以及如何知道新的域名已经上线？它总是从域注册表开始吗？如果它从注册表开始，这是否意味着任何人都可以完全访问注册表的数据库？谢谢你的见解。

浏览 4提问于2010-04-26得票数 3

回答已采纳

2回答

使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？

、、

我有一份大概的清单。52个网站，这导致大约。150个我需要抓取的网页。基于我的无知和缺乏研究，我开始构建每个网页的爬虫，这开始变得难以完成和维护。根据我到目前为止的分析，我已经知道我想在每个网页上抓取什么信息，很明显，这些网站都有自己的结构。在积极的一面，我注意到每个网站的网页在其网站结构中都有一些共性。我的百

浏览 3提问于2019-04-29得票数 0

1回答

我不太明白如何解析雅虎NHL页面

、、

到目前为止，我的代码如下：from urllib.request import urlopen for yspscores in td:我一直遇到的问题是，雅虎页面的超文本标记语言在以下上下文中包含表数据：<td class="yspscore

浏览 1提问于2013-08-13得票数 1

4回答

递归函数MultiThreading，一次执行一个任务

、、、

我正在写一个程序来抓取网站。抓取功能是一个递归的功能，可能会消耗更多的时间来完成，所以我使用多线程来执行多个网站的抓取。我真正需要的是，完成爬行一个网站后，它调用下一个(这应该是在Queqe)，而不是多个网站爬行在同一时间。我使用的是C#和ASP.NET。

浏览 0提问于2010-06-14得票数 1

回答已采纳

1回答

R:使用RSelenium捕获删除线文本

、、、

我正在使用RSelenium从一个网站抓取数据表。使用循环遍历多个页面。下面的代码成功地抓取了有问题的表(尽管它丢失了UTFC格式)，但是在某些情况下，表中的条目具有“删除线”，在这种情况下，忽略删除线并执行操作的代码是不存在的。示例：有没有人可以帮助我，当我刮桌子时，如何通过信息来保持罢工？我的</em

浏览 15提问于2020-11-18得票数 1

回答已采纳

4回答

如何抓取我自己的网站？

我继承了一个旧的经典ASP网站进行修改。虽然没有事先要求，但我想删除一些旧的“孤立”页面。由于某些原因，老开发人员决定创建文件的多个实例，而不是使用源代码管理(例如，index-t.asp, index-feb09.asp, index-menutest.asp)。我想知道是否有人知道一个程序或网站，可以为我抓取我自己的网站？它可能需要能够抓取公

浏览 0提问于2009-05-03得票数 1

回答已采纳

2回答

我多长时间可以用PHP抓取一个网站？

、、

我想构建一个Android应用程序，它可以用php抓取一个网站，并从我抓取的网站中的一个很小的span标签中获取信息。谢谢!

浏览 4提问于2012-01-03得票数 0

2回答

Node.js或

、、、、

我试图做一个应用程序，需要从多个网站大量的数据抓取。我试着用Ruby来抓取网站，但是像机械化这样的宝石似乎只会刮静态页面，而不是动态内容。对于这些语言中的哪一种，或者我应该在这个项目中使用的任何一种语言，我有几个问题(我正在考虑使用Node，因为应用程序中的许多元素必须是实时的)。是否可以使用Ruby和/或Node来抓取<

浏览 1提问于2013-01-24得票数 1

回答已采纳

1回答

尝试从多个网站访问<p>

、、、、

正如标题所述，我正在尝试从多个网站获取所有文本数据。tree.find_class(“the class that contains <p>”)Print(data) 然而，这只适用于一个网站，因为它先抓取上面的类，然后抓取文本。我不愿意进入每个网站并找到文本数据所在的类。有没有办法在所有网站<

浏览 11提问于2021-06-12得票数 0

回答已采纳

1回答

在sql中创建列数可变的表

、、

我在抓取一个网站。并且有几个表表示一个观察值的属性。我想知道把图片放在这篇文章中是否有用，因为这是韩语字母表。我插入解释图片。有很多桌子。我将重塑这些表为一个表，这将是一个记录和多个字段。但我有个问题。有几个表的列数是可变的。我希望将这些数据存储在sql中。据我所知，sql

浏览 2提问于2017-04-06得票数 1

1回答

我需要帮助将列表存储为表格和迭代抓取页面

、、

因此，我设法抓取这个电子商务网站，我有for-loop的产品名称和产品价格。我的第一个问题是如何将这两个表合并在一个表中。第二个问题是如何在网站的不同页面或多个urls中迭代这些内容。对于这个愚蠢的问题，我很抱歉，但我只是开始使用python，因为我想把它作为一个更好的抓取工具来使用，而R是我

浏览 10提问于2021-03-05得票数 0

回答已采纳

1回答

XStream中的序列化问题

、、、、

所以我在序列化我的Java代码时遇到了问题。这是一个网络抓取器，从我们学校的选课网站上为我正在做的一个项目抓取页面，我试图将指定科目的所有课程信息输出到一个XML文件中。问题是，有些类有多个部分，而不是仅仅重写这些文件名和浪费空间，我希望它们都保留在XML中称为"Sections“的部分下。你知道我的代码出了什么问题吗

浏览 2提问于2012-10-26得票数 1

回答已采纳

1回答

这是一个特性还是一个bug？Windows 10 python time.sleep()在时钟滚动到午夜时挂起

、

python 3.6.7

浏览 1提问于2020-03-20得票数 1

1回答

是否有可能自动从网站上抓取文章- Python & Beautiful

、、、、

我试图制作一个脚本从不同的网站抓取一两篇文章(仅限于文章URL)，我制作了一个Python脚本，使用BeautifulSoup获取网站的HTML，通过它的类名查找网站的Navbar菜单，并在每个网站部分循环，问题是每个网站对于Navbar菜单和它的部分都有不同的类名或Xpath。有没有办法让脚

浏览 1提问于2018-04-25得票数 0

回答已采纳

点击加载更多