Python中脚本标记的Web抓取

文章/答案/技术大牛

发布

2回答

python、json、selenium、web-scraping、beautifulsoup

我已经设法使用BeautifulSoup.Then获取脚本标记，我将其转换为json对象。我想要的信息在data['x']中，但它被卡在b标记之间。infoinwant</br>columniwant: 123','<b>infoiwant</b><br>NA<br>columniwant: 123'</br>columniwant: 123 我该如何从这

浏览 5提问于2020-09-11得票数 0

1回答

在xpath中获取文本值，而不包括脚本

xpath、web-scraping

你好，我刚开始使用web抓取和X路径，我在ID main中的scrapy (python框架)中使用了以下x路径，如何修改xpath以不收集“脚本”和“样式”中的文本？my_list=response.xpath('//*[@id="main"]//text()').extract() 在网上搜索后，我发现我可以使用|放置多个x路径(在我的例子中<

浏览 1提问于2019-12-02得票数 1

回答已采纳

1回答

我正在尝试抓取以下网站： https://www.bundesregierung.de/breg-de/bundesregierung/staatsministerin-fuer-kultur-und-medien/aktuelles 但是我需要的信息(新闻标题和日期)就在这里 <script>BPA.tags = [BPA.initialSearchResultsJsondisplayName":"R

浏览 12提问于2020-06-10得票数 0

回答已采纳

2回答

如何创建一个调用python抓取脚本的web服务？

python、python-2.7、web-scraping、bottle

我是python初学者，我需要一些帮助来创建一个web服务，该服务调用python抓取脚本(一门课程的任务)。其想法是首先创建web服务，然后使用服务器上的web抓取脚本。感谢哥伦比亚

浏览 3提问于2015-12-16得票数 0

回答已采纳

2回答

使用Bash脚本在python库上进行web抓取？

python、bash、curl、sed、web-scraping

我正在尝试从有经验的人那里获取更多的信息，一般来说，我正在使用Python库进行web抓取。与此同时，我注意到一些人正在使用simple Bash，并使用wget, curl, sed, grep, awk等命令进行web抓取。与使用Python库进行web抓取相比，这些命令在脚本编写方面似乎要干净得多。你对此有什么看法？您认为使用python库比使用Bash有什么优势吗？或者甚至使用Py

浏览 1提问于2017-03-03得票数 0

1回答

Python脚本- Web抓取

html、python-3.x、web-scraping

我正在做一个脚本，从一个网址(http://www.pmo.cz/portal/nadrze/cz/mereni_1_mes.htm)获取一些数据。我只需要从下面的图表中获取数据(以及日期和时间)：Chart 问题是我不能在输出中去掉平面线，然后以某种方式检索数据……有没有一种方法可以去掉行+获取值？是我做错了吗?还是我太愚蠢了，找不到就在我眼皮底下的解决方案？(我刚刚开始使用python，所以如果这只是另一个重复的问题，我很抱歉) 我尝试了.r

浏览 14提问于2020-01-26得票数 1

回答已采纳

1回答

如何使用python从网站上检索值

python、html

我想知道有没有什么方法可以制作一个python脚本来从网站上获取一个所说的值，在我的例子中是一个离线数字，它在一个每5分钟刷新一次的网站上。我想要设置它，如果该值增加，它将发送给我一封电子邮件。我之所以想这么做，是因为我在一家拥有超过15,000名矿工的比特币开采设施工作，我们必须不断地监控他们。但是，在做诸如清洁之类的日常工作时，携带笔记本电脑是非常令人恼火和恼人的。我对python知之甚少，所以如果有人能给我指出

浏览 3提问于2020-10-01得票数 0

1回答

如何简化/自动化数据输入？

database、web

我希望创建一个网站周围的工具，从不同的网站插入到我的表单信息。我想取消/简化数据输入。有谁知道完成这项任务的好方法吗？

浏览 0提问于2016-04-19得票数 1

1回答

如何在heroku中的rails应用程序中运行python脚本？

python、ruby-on-rails、heroku、web-scraping、scrapy

我在heroku中托管了一个rails应用程序。我还用python中的scrapy编写了一个web刮刀。我需要从heroku中的rails应用程序中运行python脚本，我将用一个例子来解释。例:用户将输入url在我的rails app.Then中进行抓取，rails应用程序将控制权交给python来抓取数据，该脚本以json

浏览 2提问于2013-10-24得票数 3

回答已采纳

1回答

为什么Web::Scraper不能解析script-tag？

perl、web-scraping

我试图用Web::Scraper抓取HTML-page，但令人惊讶的是，我没有像我预期的那样从脚本标记中获得脚本。下面的例子 use Web::Scraper;<html> <title>test html</title>other' => ' other t

浏览 15提问于2021-08-27得票数 2

回答已采纳

2回答

嵌套标记web抓取python

python、html、web-scraping、beautifulsoup

我正在刮一个固定的内容从一个特定的网站。内容位于嵌套的div中，如下所示： <div> <div class="overflow-hiddenBeautifulSoup(content) type = soup.find('div',attrs={"class":"ta

浏览 1提问于2014-04-01得票数 2

回答已采纳

5回答

如何从其他网站获取数据？

python、database、parsing、web-scraping

我想创建一个网站，从其他网站提取信息，并将它们打印到我的网站上，我正在进行研究，所以我想听取一些意见，这个项目的最佳解决方案是什么？我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

1回答

从网页中提取主题/关键字

python、web-scraping、keyword

我正在寻找一个系统，以提取主题或简单的关键字从一个网页，只有从指定的网页，没有跟随所包含的链接。要分析的页面属于不同的站点，特别是我想分析一个人在Facebook上共享的链接，并从这些页面中提取主题或简单的关键字。非常感谢。

浏览 5提问于2014-04-11得票数 0

1回答

分支外部和主干

svn、tags、branch、externals

我的SVN中有‘ExternalFolder’和‘主干’。‘主干’有一个与ExternalFolder链接的空文件夹(如下面所写)。我希望创建一个脚本，它将使用分支主干、标记(或分支) ExternalFolder并连接新分支主干中的“外部”，并将其连接到新标记的ExternalFolder，如下面的示例所示：外部(链接到Project1_BranchA

浏览 3提问于2012-11-12得票数 2

回答已采纳

2回答

将Python脚本连接到Nodejs

python、node.js

最近，我接到一个任务，用python在web上抓取一个网站，然后使用Node.js中的python-shell包将python脚本连接到Node.js。我已经完成了抓取部分，但对Node.js没有任何先验知识。你能指导我如何解决这个问题吗？

浏览 0提问于2020-01-07得票数 0

2回答

用于Web抓取的Python脚本

python、pandas、http、python-requests

我编写了一个Python脚本，用于Web抓取一个网站。请检查我的代码，并建议我任何修改，或让我意识到我的错误/错误？我也为其他网站编写了几乎相同的脚本，所以请您建议我一种将所有其他脚本组合成一个脚本的方法，这样我就可以获得一个合并文件。

浏览 0提问于2022-03-21得票数 0

1回答

抓取锚标记中的嵌套标题- python中的web抓取

python、web、web-scraping

嗨，我正在尝试网络抓取以下页面： https://www.imdb.com/chart/top 我想要抓取当你将鼠标悬停在任何电影名称上时显示的所有导演名称：下面是我所做的： direc = requests.getcontentdirec_b_t = direc_b.find_all(class_= "titleColumn") 我得到的结果如

浏览 7提问于2020-12-11得票数 0

回答已采纳

2回答

如何通过单击HTML网页上的按钮运行python脚本？

javascript、python、html、django

我现在有一个python脚本，它在运行时更新某些CSV文件(它在web上抓取和更新CSV文件的信息)。在我的HTML ( index.html )中，我在index.html中有一个脚本标记，它读取CSV文件并将其显示为网页上的一个表。但是，我现在需要做的是通过按网页上的HTML按钮来更新CSV文件。这将更新CSV文件，因此当我运行按钮来运行JS脚本时，它将从文件

浏览 7提问于2020-03-16得票数 0

回答已采纳

1回答

从网络抓取开始

javascript、python、web-scraping

首先，我想让您知道，我对html和css非常陌生，目前我还不知道如何使用Java脚本。我在看关于如何制作网络刮刀的视频，我有一些问题：我看到了很多教程在python中进行web抓取，因为我非常了解python，所以我问自己，什么更适合web抓取？Python还是Java脚本，我应该使用哪一个？我可以将python程序与html连接起来吗？我需要使用网站抓取一个网站，我正在尝试做一

浏览 1提问于2019-12-31得票数 0

回答已采纳

3回答

无法下载网页的完整源代码

python

我正在尝试使用python请求库来抓取网页。但我无法下载完整的html源代码。当我使用我的web浏览器检查元素时，它给出了完整的html，我相信它可以用于抓取，但当我使用python请求库访问这个url时，那些包含数据的html标记就消失了，我无法从这些标记中抓取数据。下面是我的示例代码：from bs4 imp

浏览 5提问于2019-07-30得票数 1

点击加载更多