开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我正在尝试web抓取，但得到的是函数而不是实际数据

Web抓取是指通过程序自动获取互联网上的数据。当你尝试进行Web抓取时，有时可能会遇到返回的是函数而不是实际数据的情况。这通常是因为你的抓取程序没有正确处理网页中的JavaScript代码。

在进行Web抓取时，有两种常见的方式：静态抓取和动态抓取。静态抓取是指直接获取网页的HTML内容，而动态抓取则是模拟浏览器行为，执行网页中的JavaScript代码，并获取JavaScript生成的数据。

当你得到函数而不是实际数据时，很可能是因为你的抓取程序只获取了网页的静态内容，而没有执行其中的JavaScript代码。在现代的Web应用中，很多数据是通过JavaScript动态加载和生成的，如果你只获取了静态内容，就无法获取到完整的数据。

要解决这个问题，你可以尝试使用一些支持动态抓取的工具或库，例如Selenium、Puppeteer等。这些工具可以模拟浏览器行为，执行网页中的JavaScript代码，并获取完整的数据。

另外，你还可以分析网页的源代码，找到包含实际数据的JavaScript函数，并尝试理解函数的逻辑，从而提取出你需要的数据。这可能需要一定的前端开发知识和对目标网页的深入了解。

总结起来，当你进行Web抓取时，如果得到的是函数而不是实际数据，可能是因为你没有正确处理网页中的JavaScript代码。你可以尝试使用支持动态抓取的工具或库，或者分析网页源代码来提取数据。记得在抓取过程中遵守相关的法律法规和网站的使用规则，确保合法合规地进行数据获取。

相关搜索:Cakephp正在尝试连接到我的计算机，而不是我设置的数据库 Python Web Scraper尝试让程序抓取某个特定位置的数据，而不是整个页面 Web抓取-我得到的是标签，而不是值为什么我在web抓取时得到的是一个空列表而不是一个包含元素的列表为什么我得到的是wrappedPointCut而不是数据？为什么我的firestore数据是'useruid‘而不是实际的uid？为什么我的抓取数据看的是旧的数据库数据，而不是更新的数据库数据？使用请求头的Web抓取，但它返回的是页面html而不是Ajax数据尝试使用RSA加密视频帧；解密后得到的是垃圾数据而不是原始数据您好，我正在尝试显示基于状态代码的错误消息，但不幸的是，在控制台中得到响应，而不是在客户端显示上

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

如何用Python爬数据？（一）网页抓取

你期待已久的Python网络数据爬虫教程来了。本文为你演示如何从网页里找到感兴趣的链接和说明文字，抓取并存储到Excel。

02

这个Pandas函数可以自动爬取Web图表

Pandas作为数据科学领域鳌头独占的利器，有着丰富多样的函数，能实现各种意想不到的功能。

04

Zenscrape面向渗透测试人员网页抓取

您是否曾经尝试从任何网站提取任何信息？好吧，如果您有的话，那么您肯定已经制定了Web抓取功能，甚至都不知道！简而言之，Web抓取（也称为Web数据提取）是从网页中回收或清除数据的过程。这是一种检索数据的更快，更轻松的过程，而无需经历费时的手动数据提取方法的麻烦。 Web抓取使用高级自动工具从数以亿计的网站中回收数据。

03

如果有人问你Python爬虫抓取技术的门道，请叫他来看这篇文章

web是一个开放的平台，这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特性、搜索引擎以及简单易学的html、css技术使得web成为了互联网领域里最为流行和成熟的信息传播媒介；但如今作为商业化软件，web这个平台上的内容信息的版权却毫无保证，因为相比软件客户端而言，你的网页中的内容可以被很低成本、很低的技术门槛实现出的一些抓取程序获取到，这也就是这一系列文章将要探讨的话题—— 网络爬虫。

01

AuthCov：Web认证覆盖扫描工具

AuthCov使用Chrome headless browser（无头浏览器）爬取你的Web应用程序，同时以预定义用户身份进行登录。在爬取阶段它会拦截并记录API请求及加载的页面，并在下一阶段，以不同的用户帐户“intruder”登录，尝试访问发现的各个API请求或页面。它为每个定义的intruder用户重复此步骤。最后，它会生成一份详细的报告，列出发现的资源以及intruder用户是否可以访问这些资源等。

00

数据界的达克摩斯之剑----深入浅出带你理解网络爬虫(Third)

接上文数据界的达克摩斯之剑----深入浅出带你理解网络爬虫(Second)-CSDN博客

01

爬虫抓取的门道——来看这篇

本文首发于我的个人博客，同步发布于SegmentFault专栏，非商业转载请注明出处，商业转载请阅读原文链接里的法律声明。 web是一个开放的平台，这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特性、搜索引擎以及简单易学的html、css技术使得web成为了互联网领域里最为流行和成熟的信息传播媒介；但如今作为商业化软件，web这个平台上的内容信息的版权却毫无保证，因为相比软件客户端而言，你的网页中的内容可以被很低成本、很低的技术门槛实现出的一些抓取程序获

09

爬虫技术的门道，这篇文章总结的最全

Web是一个开放的平台，这也奠定了Web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特型、搜索引擎以及简单易学的HTML、CSS技术使得Web成为了互联网领域里最为流行和成熟的信息传播媒介；但如今作为商业化软件，Web这个平台上的内容信息的版权却毫无保证，因为相比软件客户端而言，你的网页中的内容可以被很低成本、很低的技术门槛实现出的一些抓取程序获取到，这也就是这一系列文章将要探讨的话题—— 网络爬虫。

04

Python：用一行代码在几秒钟内抓取任何网站

如果你正在寻找最强大的 Python 抓取工具？不要再看了！这一行代码将帮助你立即启动并运行。

03

爬虫技术的门道，这篇文章总结的最全

Web是一个开放的平台，这也奠定了Web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特型、搜索引擎以及简单易学的HTML、CSS技术使得Web成为了互联网领域里

07

使用多个Python库开发网页爬虫（一）

21CTO社区导读：在本篇文章里，我们将讨论使用Python进行网页抓取以及如何引用多个库，如Beautifusoup，Selenium库，以及JavaScript的PhantomJS库来抓取网页。在本文中，我们将学习到如何抓取静态页面，Ajax内容、iFrame、处理Cookie等内容。关于网页抓取网页抓取是从Web中提取数据的过程，可以用于分析数据，提取有用的信息。可以将抓取的数据存储到数据库里，也可以保存为任何格式的文件格式，比如CSV，XLS等，可用于其它软件再编辑。在Python语言的世

06

手把手 | 范例+代码：一文带你上手Python网页抓取神器BeautifulSoup库

大数据文摘作品，转载要求见文末编译 | 元元、康璐网络上的信息是任何人穷极一生也无法全部了解的。你需要的或许不是简单的获得信息，而是一个可以收集，整理，分析信息，并且具有拓展性的方法。你需要网页抓取（Web scraping）技术。网页抓取可以自动提取网站上的数据信息，并把这些信息用一种容易理解的格式呈现出来。网页抓取应用广泛，在本教程中我们将重点讲解它在金融市场领域的运用。如果你是个投资达人，每天查找收盘价一定是个烦心事，更不用提数据来源于多个网站的时候。我们可以用代码写一个网络爬虫 (web

03

[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例

随着互联网的迅速发展，万维网成为大量信息的载体，越来越多的网民可以通过互联网获取所需的信息，同时如何有效地提取并利用这些信息也成为了一个巨大的挑战。搜索引擎（Search Engine）作为辅助人们检索信息的工具，它成为了用户访问万维网的入口和工具，常见的搜索引擎比如Google、Yahoo、百度、搜狗等。但是，这些通用性搜索引擎也存在着一定的局限性，比如搜索引擎返回的结果包含大量用户不关心的网页；再如它们是基于关键字检索，缺乏语义理解，导致反馈的信息不准确；通用的搜索引擎无法处理非结构性数据，图片、音频、视频等复杂类型的数据。

01

简易数据分析 10 | Web Scraper 翻页——抓取「滚动加载」类型网页

我们在刷朋友圈刷微博的时候，总会强调一个『刷』字，因为看动态的时候，当把内容拉到屏幕末尾的时候，APP 就会自动加载下一页的数据，从体验上来看，数据会源源不断的加载出来，永远没有尽头。

02

如何用Python抓取最便宜的机票信息（上）

这个项目的目标是为一个特定的目的地建立一个web scraper，它将运行和执行具有灵活日期的航班价格搜索（在您首先选择的日期前后最多3天）。它保存一个包含结果的Excel，并发送一封包含快速统计信息的电子邮件。显然，目的是帮助我们找到最好的交易！

02

如何用 Python 构建一个简单的网页爬虫

您有没有想过程序员如何构建用于从网站中提取数据的网络抓取工具？如果你有，那么这篇文章就是专门为你写的。我们生活在一个数据驱动的世界已经不是什么新闻了，企业需要的大部分数据都只能找到。通过使用称为网络抓取工具的自动化机器人，您可以高速从网站中提取所需的数据。谷歌、雅虎、Semrush、Ahref 和许多其他数据驱动的网站都是如此。

03

PWA 系列（一）——Cache API

PWA（Progressive web apps，渐进式 Web 应用）运用现代的 Web API 以及传统的渐进式增强策略来创建跨平台 Web 应用程序。

04

用 Javascript 和 Node.js 爬取网页

本文主要针对具有一定 JavaScript 经验的程序员。如果你对 Web 抓取有深刻的了解，但对 JavaScript 并不熟悉，那么本文仍然能够对你有所帮助。

01

《Learning Scrapy》（中文版）第3章爬虫基础

本章非常重要，你可能需要读几遍，或是从中查找解决问题的方法。我们会从如何安装Scrapy讲起，然后在案例中讲解如何编写爬虫。开始之前，说几个注意事项。因为我们马上要进入有趣的编程部分，使用本书中的代码段会十分重要。当你看到： $ echo hello world hello world 是要让你在终端中输入echo hello world（忽略$），第二行是看到结果。当你看到： >>> print 'hi' hi 是让你在Python或Scrapy界面进行输入（忽略>>>）。同样的，第二行是输出结果。

06

记一次由sql注入到拿下域控的渗透测试实战演练（上）

4.通过在目标服务器上安装并使用nmap完成信息收集，为接下来横向移动以及拿下域控提供基础

01

使用C#也能网页抓取

网页抓取是通过自动化手段检索数据的过程。它在许多场景中都是不可或缺的，例如竞争对手价格监控、房地产清单列表、潜在客户和舆情监控、新闻文章或金融数据聚合等。

03

网络安全自学篇（十四）| Python攻防之基础常识、正则表达式、Web编程和套接字通信（一）

免责声明：本公众号发布的文章均转载自互联网或经作者投稿授权的原创，文末已注明出处，其内容和图片版权归原网站或作者本人所有，并不代表安全+的观点，若有无意侵权或转载不当之处请联系我们处理，谢谢合作！

02

网页抓取 - 完整指南

Web Scraping，也称为数据提取或数据抓取，是从网站或其他来源以文本、图像、视频、链接等形式提取或收集数据的过程。

02

听GPT 讲Prometheus源代码--rules/scrape等

该文件定义了规则引擎的接口和主要结构,包括Rule,Record,RuleGroup等。它提供了规则的加载、匹配、评估和结果记录的功能。

02

PostgreSQL管理工具pgAdmin 4中XSS漏洞的发现和利用

本文我将给大家讲述我是如何发现及利用pgAdmin4桌面客户端中的XSS漏洞。在看完本文之后，请尽快升级到1.4版本。前言由于我一只手误触到新MacBookPro上那大得离谱的触摸板，pgAdmi

简易数据分析（七）：Web Scraper 抓取表格、分页器翻页数据

经典表格就这些知识点，没了。下面我们写个简单的表格 Web Scraper 爬虫。

04

R语言爬虫初尝试-基于RVEST包学习

在学完coursera的getting and Cleaning data后，继续学习用R弄爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖。。。言归正传，拿了几个网页练手。包括对拉勾网爬了一下虫，还尝试了对国外某黄页爬虫，对ebay用户评价爬虫分析其卖家卖的东西主要在哪个价格段（我查的那个卖家，卖8.99和39.99最多，鞋子类），做了一下文本挖掘，还有爬了一下股票数据，基金买入情况等等。之所以放拉勾网为例子，因为这个大家都比

03

简易数据分析 12 | Web Scraper 翻页——抓取分页器翻页的网页

前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法，比如说修改网页链接加载数据、点击“更多按钮“加载数据和下拉自动加载数据。今天我们说说一种更常见的翻页类型——分页器。

03

[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。

01

如何通过Power BI来抓取1688的产品数据进行分析？

首先我们来看下价格。目前可以归纳总结的一共有3种左右的价格形势，我们来看下不同的价格情况。

01

爬了知乎60W个网页，发现了一些很有趣的东西

我们先讲讲爬虫，这10w个网页我没有写代码去实现抓取，当时在上班，不想花太多时间去抓取这些内容（flag）。所以就采用Chrome浏览器的插件Web Scrape去实现抓取。

Python使用Chrome插件实现爬虫过程图解

做电商时，消费者对商品的评论是很重要的，但是不会写代码怎么办？这里有个Chrome插件可以做到简单的数据爬取，一句代码都不用写。下面给大家展示部分抓取后的数据：

03

使用 Excel和 Python从互联网获取数据

互联网上有极其丰富的数据资源可以使用。使用Excel可以自动读取部分网页中的表格数据，使用Python编写爬虫程序可以读取网页的内容。

02

你应该知道的17个Golang包

随着时间的推移，语言爱好者已经构建和共享了许多 Go 框架和库。这些包执行不同的功能，从开发微服务到制作 discord 机器人，一直到构建 Web 应用程序！在本文中，我将尝试让您熟悉一些有用的方法，这些方法是我在尝试使用这种有趣的新编程语言学习和构建应用程序时发现的。

03

理解并应用：JavaScript响应式编程与事件驱动编程的差异

在现代JavaScript开发中，响应式编程（Reactive Programming）和事件驱动编程（Event-Driven Programming）是两种非常重要且常用的编程范式。虽然它们都用于处理异步操作，但在理念和实现方式上存在显著差异。理解并正确应用这两种编程模式可以帮助开发者编写更高效、更可维护的代码，尤其在复杂的Web应用和数据抓取（Web Scraping）任务中尤为重要。

01

PQ网抓基础：接入省市区代码之2-获取市级编码及名称

接着上次《PQ网抓基础：接入省市区代码之1-获取省级编码及名称》的内容。

02

Python爬虫：抓取整个互联网的数据

爬虫，也叫网络爬虫或网络蜘蛛，主要的功能是下载Internet或局域网中的各种资源。如html静态页面、图像文件、js代码等。网络爬虫的主要目的是为其他系统提供数据源，如搜索引擎（Google、Baidu等）、深度学习、数据分析、大数据、API服务等。这些系统都属于不同的领域，而且都是异构的，所以肯定不能通过一种网络爬虫来为所有的这些系统提供服务，因此，在学习网络爬虫之前，先要了解网络爬虫的分类。

02

Oracle Advanced Support系统SQL注入漏洞挖掘经验分享

Oracle Advanced Support系统SQL注入漏洞分析一年多前我在客户的一个外部环境中执行渗透测试，任何外部环境渗透测试的重要步骤之一就是挖掘出可访问的WEB服务。nmap和EveWitness的结合会令这步骤变得更快，因为我们可以进行端口扫描并且把这些结果以屏幕截图的形式导入到 EyeWitness中。当梳理完 EyeWitness提供的屏幕截图页面后，我发现了一个Oracle 高级支持服务。虽然我之前从没听过Oracle Advanced Support,但是当我很快的goo

07

用flask自建网站测试python和excel爬虫

今天我们分享一篇通过Python编写测试用Web应用程序，然后使用Excel和Python从编写的Web网站上获取数据的文章，让你学爬虫更方便。

01

[永久开源] vulntarget-b_打靶记录

乌鸦安全的技术文章仅供参考，此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。

03

马蜂窝数据被扒光，用 Python 爬取网页信息 4 分钟就能搞定

图片来自https://www.freestock.com/free-photos/illustration-english-window-blue-sky-clouds-41409346

01

干货 | 马蜂窝数据被扒光，用 Python 爬取网页信息 4 分钟就能搞定

图片来自https://www.freestock.com/free-photos/illustration-english-window-blue-sky-clouds-41409346

03

拣阅一：缘由和系统设计「建议收藏」

个人平时比較喜欢看些新闻资讯，比方科技类的huxiu, 36kr，体育新闻等，对相关的APP也实用到，今日头条做的非常不错。周围非常多人在用。可是在用了一段时间之后发现非常多APP都有下面特点:

02

记一次内网渗透2

环境搭建： kali攻击机，Windows 2008（web服务），Windows 2012（DC域控），windows7 （PC机）。

01

Grasp2Vec：通过自我监督式抓取学习物体表征

从很小的时候开始，人类就能够识别最喜欢的物品，并将它们捡起来，尽管从未有人明确教过他们这样做。认知发展研究表明，与周围物体互动的能力在培养物体感知和操纵能力（例如有目的的抓取）的过程中起着至关重要的作用。通过与周围的环境互动，人类能够以自我监督的方式学习：我们知道自己作出的动作，并会从结果中学习。在机器人领域，人们正在积极研究这种自我监督学习，因为这使机器人系统能够在不需要大量训练数据或人工监督的情况下进行学习。

02

好物分享22-科研巡礼04-利用zotero批量抓取文献

其实我自己是没有特别多的抓取文献的需求的。最近正好在捯饬[[22-用researchrabbit联动zotero打造文献一条龙]]，就来复习一下。

03

Learning Scrapy（一）

学习爬虫有一段时间了，从Python的Urllib、Urlllib2到scrapy，当然，scrapy的性能且效率是最高的，自己之前也看过一些资料，在此学习总结下。

02

Python pandas获取网页中的表数据（网页抓取）

现如今，人们随时随地都可以连接到互联网上，互联网可能是最大的公共数据库，学习如何从互联网上获取数据至关重要。因此，有必要了解如何使用Python和pandas库从web页面获取表数据。此外，如果你已经在使用Excel PowerQuery，这相当于“从Web获取数据”功能，但这里的功能更强大100倍。

03

用 Node.js 爬虫下载音乐

互联网上有许多可供人类消费的信息。但是如果这些数据不是以专用的 REST API 的形式出现，通常很难以编程方式对其进行访问。使用 jsdom 之类的 Node.js 工具，你可以直接从网页上抓取并解析这些数据，并用于你自己的项目和应用。

03

完美假期第一步：用Python寻找最便宜的航班！

这个简单的问题经常会得到一个积极的回复甚至还会额外收到一个或两个冒险的故事。通常来讲，旅行是一种体验新文化和拓宽自己视野的好方法。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭