从URL中带有"#“的网站中抓取数据时出错

文章/答案/技术大牛

发布

1回答

、、

我尝试使用python从一个网站( url：中有#号)中抓取数据，但在将其解析为html文件时收到以下错误消息：<body><h2>Bad Request - Invalid URLThe request <e

浏览 20提问于2018-07-23得票数 0

回答已采纳

2回答

如何在带有R的网站的搜索框中直接书写

、、

我正在寻找一种方法来做网页抓取后，在其搜索框中键入。让我用一个例子更好地解释:我正在寻找一个R函数，它直接在amazon主页上写入单词"notebook“，这样我就可以随后对生成的页面进行web抓取。感谢大家的帮助。

浏览 2提问于2021-01-25得票数 1

5回答

如何从其他网站获取数据？

、、、

我想创建一个网站，从其他网站提取信息，并将它们打印到我的网站上，我正在进行研究，所以我想听取一些意见，这个项目的最佳解决方案是什么？

浏览 1提问于2013-06-14得票数 4

4回答

视频提供商在Chrome运行的不安全内容中屏蔽的视频

、、、

我正在尝试从这个URL嵌入一个视频：-这是一个公开的视频，它给我的嵌入代码如下：- <object id="flashObjP1_Prod_Version=ShockwaveFlash"></embed></obje

浏览 2提问于2013-08-12得票数 2

回答已采纳

1回答

从给定网站抓取数据时出错

、、、

我是excel公司的vba新手。我成功地编写了一个代码，它从给定的网站中抓取数据，并将其存储在excel工作表中。所以要找出原因是很有挑战性的。另外，如果您能帮助我加快代码的速度(也许不使用剪贴板来粘贴表，但我不知道如何使用否则.)。这个错误是在指定的行中进行的(有时只是，大多数情况下，子程序工作得很好)，并有这样的注释：“这是抛出错误的行。我感

浏览 7提问于2020-06-14得票数 0

2回答

facebook无法抓取网站

、、

我有一个网站返回：“解析输入URL时出错，没有缓存数据，或者没有抓取数据。”注意:经过一段时间后

浏览 0提问于2014-11-17得票数 0

1回答

对于一个url，它应该只索引一次。

、

任何一个点我正确的文档或黑客停止nutch重新索引或获取相同的内容。对于给定的url，我只想抓取一次。

浏览 2提问于2014-08-20得票数 0

4回答

C# AJAX或Java response HTML抓取

在C#中有没有一种方法可以获得AJAX或Java的输出？我试图做的是获取网页上项目的细节，但是网页不会将其加载到原始源中。有没有人有好的教程或者好的起点？例如，我想从获取所有的汽车列表

浏览 1提问于2011-06-06得票数 1

回答已采纳

1回答

网站URL不是有效的URL

我正在尝试创建facebook应用程序与网站网址，但它说网站URL不是有效的URL。我不确定问题出在哪里。

浏览 0提问于2012-02-02得票数 4

回答已采纳

1回答

抓取PHP cURL和XPath，如何提高速度？

、、、

目前我正在使用PHP cURL和XPath进行抓取，但速度非常慢。我用上面的代码总共刮掉了大约150个网页。每个脚本获取一个

浏览 1提问于2011-07-25得票数 1

1回答

Azure ML错误中的R抓取

、、

我用RStudio编写了一个脚本(运行R3.5.2)，它可以从特定的网站抓取数据。脚本延伸到一个网站，使用download.file来提取底层代码，并使用标记提取所需的数据。脚本在RStudio中运行时没有出错，但是当我试图在Azure中的"Execute“节点中运行代码时，它会抛出一个0063错误，说明它”无法到达URL“。代码完美地

浏览 0提问于2019-05-01得票数 1

回答已采纳

2回答

无标题- Wordpress facebook共享

、、

我使用wordpress 3.4.1创建了我的网站，并尝试在facebook中分享我的网页。我在facebook的帖子中没有得到任何缩略图或基本的博客描述。相反，我得到的是“没有标题”。但是，他们中的大多数都在走向死胡同。有人能在这方面帮助我吗？分析URL时出错:分析输入URL时<e

浏览 1提问于2012-08-16得票数 1

回答已采纳

1回答

wget:识别中断的出站链接

wget的S --spider选项可以简单地识别出断开的内部链接：我尝试用-H扩展它以查找断开的出站链接，但是(据我所知)您不能在外部域上指定一个额外的递归级别，所以在--level=0中保留让爬行器可以覆盖整个万维网。我能想到的一个解决办法是使用网站的sitemap.xml (如果有可用的话)来获取整个域的URL集

浏览 0提问于2022-08-16得票数 2

4回答

用Python实现表Web抓取问题

、、、

我有问题从这个网站抓取数据：我对python相对陌生，对web抓取完全陌生。以下是我到目前为止所拥有的：from bs4 import BeautifulSoup h

浏览 1提问于2020-06-22得票数 1

回答已采纳

2回答

在网页中加载更多内容，并发出写入文件的问题

、、、、

我正在进行一个网络抓取项目，它涉及到从一个基于搜索词的网站中抓取URL，将它们存储在一个CSV文件中(在一个列下)，最后从这些链接中抓取信息并将它们存储在一个文本文件中。代码的后半部分只读取最后一个链接(存储在csv文件中

浏览 8提问于2017-07-19得票数 0

回答已采纳

1回答

从Facebook拉取给定URL的共享缩略图

、、、

我想从以下位置拉出共享站点的缩略图： <div class="UIThumbPager_Thumbs">谢谢！:)

浏览 0提问于2010-09-02得票数 1

回答已采纳

1回答

如何检测URL列表中的重复值并停止迭代？

、、、

我正在尝试使用puppeteer & cron抓取一个网站。它工作得很好，除了我不知道如何停止程序执行，如果检测到重复的url？下面是我的项目的伪代码： // target = grab the <a> tag from site // saveit to the file 虽然这段代码运行良好，但当我在scheduler&

浏览 19提问于2020-12-11得票数 0

回答已采纳

2回答

所以我想从这个url加载所有格式化的数据：转换成r，这样我就可以过滤掉其中的一些。一旦我得到它，我知道如何正确地过滤它，但我不能将它“注入”到R中。如果url以".txt“或".csv”结尾，我已经看到了许多拉取数据的方法，但是如果这个url不是以文件类型结尾，那么我知道如何获取它的唯一方法就是拉出html，但是我得到...所有的html。有几种选择可以将文件下载为.csv并以这种方式注入它，但

浏览 3提问于2016-04-07得票数 0

1回答

Python从多个网站URL中抓取数据

、、、

对于我的一个网络项目，我需要从不同的网站来源刮数据。为了简单起见，我用一个例子来解释。。。我怎样才能写一个规范化的脚本来遍历那些列出的网页URL的HTML和刮取数据，不管它们<em

浏览 7提问于2014-11-18得票数 3

回答已采纳

1回答

如何从只使用一个url的网站抓取数据

、、、

我是一名学生，我正在尝试从我们的在线注册中抓取数据，以便不一致机器人可以发送关于不一致的信息，该网站需要登录，我可以使用以下代码： import requestslogin_url ="url" result = session_requests.get(login_url),

浏览 28提问于2020-09-08得票数 0

回答已采纳

点击加载更多