抓取网页正文 - 腾讯云开发者社区

、、、

我想在我的应用程序中添加一个UIWebView，但我只想加载我的网页正文。我不想显示页眉或页脚。我该怎么做呢？

浏览 1提问于2013-05-26得票数 1

1回答

如果得到3xx状态码，php curl会立即重定向

、、

我正在用php和curl创建网页抓取。我发现如果http respond的状态码是3xx，curl仍然会下载正文内容。如果正文内容很小，我认为这没有问题，但在我的例子中，有3xx的页面和巨大的正文内容。我只是想立即重定向，如果它得到3xx没有得到正文内容。如何做到这一点？

浏览 0提问于2013-04-03得票数 0

2回答

如何从网页上抓取正文？

、、

但我想刮掉整个网页。我是一个新手在编码，所以如果你能帮助刮网页，我会非常感谢。我发现很难理解XML标签和识别them..could，你们中有谁可以修改这段代码，让它打印这个网页上的所有或大部分内容？

浏览 2提问于2013-04-03得票数 0

1回答

Cheerio如何忽略某个标签的元素

、

我正在抓取网页的正文：.then(function(response){ var $ = cheerio.load(response.data);

浏览 29提问于2017-06-22得票数 2

回答已采纳

9回答

BeautifulSoup抓取可见网页文本

、、、

基本上，我想使用BeautifulSoup严格抓取网页上的可视文本。例如，就是我的测试用例。我主要想获取正文文本(文章)，甚至这里和那里的一些选项卡名。我想不出函数需要什么参数才能获得网页上的可视文本。那么，我应该如何找到除脚本、注释、css等之外的所有可见文本？

浏览 95提问于2009-12-21得票数 139

回答已采纳

1回答

从网页上抓取实际的属性名？

、、

基本上，我想知道如何使用Javascript从网页中抓取CSS属性的实际名称。“正文文本，而不是“阁楼中的光”元标题名称。</a>您可以看到为什么这很重要，因为我正在处理的是一个网页，它会在正文文本中删除名称，但会将其完全写在标题元标记中。谢谢!

浏览 1提问于2021-01-04得票数 2

回答已采纳

2回答

我可以在<h1>和其他主题标签中使用哪些标记？

、、、

我可以在h1标签(或h2，h3，h4 )中使用其他标记吗？等等)？例如：span {} text-decoration: underline;<h1>My <span>example</span> text</h1><h3>Why I you </br> think so ... ? </h3>这些代码是否有效，

浏览 0提问于2018-12-24得票数 0

回答已采纳

1回答

如何从Firefox中删除焦点环，主窗口的正确选择器是什么？

、、、、

每当我点击网页主体的任何部分时，火狐就会在浏览器窗口周围放置焦点环(见屏幕快照)。它在每个网页上都这样做。-moz-outline-style: /* NOPE */; 我使用时尚风格的所有网页与上述规则(@-moz-document url-prefix( "http

浏览 4提问于2017-03-25得票数 1

回答已采纳

1回答

用Solr返回网页摘要

、

我已经成功地使用Nutch抓取了一个站点，并尝试使用Solr作为索引器/搜索器返回突出显示的摘要。因此，如果我查询"ocean“，那么我想从包含该查询条件的网页(而不是标题或url)的文本中返回20-30个单词的摘要。Nutch schema.xml中的"content“字段是网页正文元素的字段吗? 2.如果这个字段没有存储，有没有办法让Solr在搜索时检索该字段，以便突出显示它？

浏览 0提问于2012-04-04得票数 0

1回答

美丽的汤不是解析所有标签

、、、、

我附上了一个网页HTML的屏幕截图，我正试图抓取一个表格，其中有一个表，我想从正文中的行中获取一些数据(它们显然是存在的)，但是，它不起作用，所以我决定打印tbody，它显示解析找到了表和正文，但没有找到其中的行

浏览 0提问于2020-05-10得票数 0

回答已采纳

2回答

在网页抓取数据的过程中，当我试图访问网站上的一些值时，我遇到了问题。问题是，我想要提取的文本在类中，其中包含由标记分隔的几个文本(这些正文标记也有对我来说也很重要的文本)。因此，首先，我尝试使用我需要的文本(在本例中为“类别”)查找标记，然后从正文标记赋值下面的文本中提取确切的类别。我可以使用精确的XPath，但是这里不是这样的，因为我需要在web上抓取的其他页面在这个侧边栏中包含了不同数量的行，所以位置以及XPaths都是不同的。预期的输出是“实用程序”--侧边栏中的类别。

浏览 1提问于2020-05-17得票数 0

回答已采纳

4回答

如何向网站显示电子邮件的内容？

、、

我想要显示电子邮件的正文内容。我在php中尝试过IMAP，但有些地方很不对劲。IMAP没有接收到我的邮件正文。它只提取正文中的签名。因此，我正在寻找读取电子邮件正文内容到网页的替代方法。以下是我的电子邮件的原始文档：免责声明/版权模糊正在被IMAP抓取，但正文中没有显示任何其他内容。有谁有其他方法可以从gmail或任何其他可以将内容显示到网页上的网站上阅读电子邮件？

浏览 1提问于2011-12-03得票数 4

回答已采纳

0回答

获取重定向至其他网页的网页内容

、、

我想抓取网页的内容-- 。但是如果我们访问这个页面，我们会看到它被重定向到页面- 。但是我想从那个重定向的网页()中获得更多关于该网页的信息。我的问题是，有没有什么方法可以让我在不解析html正文的情况下获得页面重定向到的url？我更喜欢使用crawler4j的解决方案。即使是用

浏览 10提问于2017-06-04得票数 0

回答已采纳

3回答

是否可以使用web抓取来获取正确的单词，然后单击单词下的链接？

、、

所以我并不是在问代码，我只是在问web抓取是否可以做我下面将要描述的事情，以及在哪里可以找到教程：我有一个包含标题列表的网页。每个标题都包含一个指向其内容的链接。我在想，有没有可能在标题中找到正确的关键字，然后单击标题的链接，最后对内容进行网络抓取？如果是，我在哪里可以找到关于它的任何教程？我不是一个专业的网络材料，所以我的描述很可能会造成混乱。幸运的是，如果任何人理解了我所描述的内容，请随意编辑问题正文，以便人们更容易理解。谢谢。(我正在考虑使用python中的beautifulsoup4包)

浏览 0提问于2019-07-08得票数 0

1回答

从reddit URL获取原始URL

、、

考虑这个链接：https://www.reddit.com/r/todayilearned/comments/6x6iz8/til_princess_diana_on_live_tv_shook_the_hand_of/?ref=share&ref_source=linkhttp://www.bbc.com/news/av/magazine-39490507/how-princess-diana-changed-attitudes-to-aids

浏览 0提问于2017-09-01得票数 1

2回答

IMAP附件

、、、

我正在用PHP创建一个脚本，它的任务是将IMAP服务器备份到MySQL数据库。如果电子邮件有附件，该附件是嵌入到电子邮件本身中还是服务器上的单独文件？弗雷德里克·克罗

浏览 0提问于2012-11-20得票数 1

回答已采纳

7回答

使用C#访问网页内容

、、

我正在尝试使用C#来访问网页的内容。例如，我想抓取google主页的正文。我知道这在C#中是可以做到的，因为它有web浏览器控件。但是我找不到一个好的，简单的例子。

浏览 0提问于2009-07-14得票数 6

回答已采纳

1回答

节点js异步请求无法获取网页正文

、、、

我想从超过1000个urls的列表中获得网页正文(我的目标是使用cheerio进行抓取)。问题是，我得到了一个奇怪的GUNZIP结果，而我无法获得body标记的内容。

浏览 0提问于2017-11-21得票数 0

1回答

使用python从urls列表中进行Web抓取

、

我正在试着从列表中剔除一些房地产网站的列表。我写了一些简单的代码来从一个url获取数据，但是当我尝试使用列表'url1'，'url2‘时，我什么也得不到。我也在尝试csv列表，但我仍然一无所获。我检查了很多类似的主题，但仍然没有结果。你能帮我理解一下怎么做吗？import lxmlimport pandas as pd url = 'https://www.zillow.com/homedetails/105-Itasca-St-Boston-MA-0212

浏览 0提问于2020-02-26得票数 0

1回答

无法使用R XML包从抓取的HTML页中拉出文本

、

我正在尝试提取纽约时报影评的正文，以便对它们进行一些语义分析。不幸的是，我的HTML+R+XML包技能不足以完成这项工作。我可以使用来自NYT movies API的XML输出来获取电影的详细信息，但是我不知道如何使用文章API或直接的网页抓取来获得评论的正文。Title","MPAA-Rating", "Critics.Pick", "Thousand.Best", "Release.Date", "Article.URL

浏览 1提问于2012-02-17得票数 1

回答已采纳

点击加载更多