c语言爬取网页内容_c语言爬取网页_python爬取js网页内容 - 腾讯云开发者社区

、

我的要求是使用图形apis在我的整个SharePoint Online (SPO)中搜索文件。我在MS Graph Explorer中使用的查询如下所示： domain'.sharepoint.com/_api/search/query?Querytext='res1a2b3c4d5e‘ 基本上，上面的查询是搜索标题/名称为'res1a2b3c4d5e‘的所有文档。如果我搜索任何现有的文档，这将很好地工作。如果我试图搜索在进行上述调用之前创建/上传的任何文档，我将不会得到结果。如果我在几分钟后搜索相同的内容，则请求成功。当我在我的客户站点上尝试相同的内容时，它有数百

浏览 2提问于2017-04-18得票数 1

3回答

如何判断一个网页在C#中是否有RSS

、、

我有个任务要做。我需要下载一个网页，看看该网页是否包含任何RSS馈送。我知道如何使用C#中的Http将网页下载为字符串，但如何确定http页面字符串中是否包含任何RSS？谢谢杰克

浏览 1提问于2009-11-19得票数 2

2回答

关闭浏览器或单击中止时，脚本不会停止

、、

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。有时因为脚本加载了很长时间，我在浏览器中遇到超时，但在后台，我继续说。我在我的数据库里看到了。我能防止这种情况吗？..现在，如果我停止webserver，这是可能的。谢谢你，并致以最良好的问候。

浏览 0提问于2010-01-22得票数 0

1回答

怎样在不使用API的前提下爬取Twitter数据？

、、、、

由于现在Twitter API 数据爬取付费，所以我想在不使用Twitter API的情况下使用python爬取到特定关键词的Twitter数据或者Reddit数据，有什么好办法吗？

浏览 360提问于2024-01-06

2回答

网站内容评级有没有元标签？

、、

我的一位客户说，她注意到她的网站在一家杂货店的wifi咖啡厅被屏蔽了。它不包含任何丑闻--它只是一个旅游博客。该公司表示，这一限制的原因是禁药类别“未评级”。有没有办法对网页内容进行分级，这样它就不会被屏蔽了？我以前从来没有遇到过这个问题。

浏览 5提问于2010-07-09得票数 3

1回答

如何用python爬取数据并保存到excel？

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。 590859A8-9A1A-4E52-8E60-AD292B16B4A8.png 655C6D0E-4901-4369-AA98-452F9FEFB852.png 4E73A31E-C9C4-45C0-A34E-8EA9AE335A98.jpeg 91321020-9B32-4C77-910A-FA

浏览 316提问于2021-01-09

2回答

Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢？

、、

请任何人让我知道，我如何才能识别更新的网址去重新抓取？当页面要重新爬行时，我只想抓取页面的更新内容，而不是已经抓取的旧内容。提前谢谢。普拉亚..。

浏览 0提问于2012-04-20得票数 0

2回答

Scrapy没有拿起我的url

、、

我有一个破烂的代码，应该能够采取电话和地址从一个网页中的表格： import scrapy class PeopleSpider(scrapy.Spider): name="People" start_urls=[ 'http://canada411.yellowpages.ca/search/si/1/519-896-7080/', ] def parse(self,response): for people in response.css("div.person-search__table--row"): yield

浏览 0提问于2017-02-16得票数 0

1回答

系统自动更新SQL Server全文索引会导致阻塞和超时

、

自动更新目录中的全文索引的内部系统进程(change tracking = on)需要很长时间才能完成，从而锁定了希望同时访问同一个表的其他查询。除了将更改跟踪设置为关闭之外，是否可以采取其他措施来避免这些影响？保持较小的目录大小是否有帮助，即每个目录一个表？全文目录目前有34 GB大小，其中包含一些包含大量记录的非常大的表。

浏览 22提问于2019-02-22得票数 0

回答已采纳

2回答

Scala:向下转换抛出java.lang.ClassCastException

、、、

来自非Java背景的Scala给我带来了广泛的困难，包括这一点。 scala> class A defined class A scala> class B extends A defined class B scala> val a = new A a: A = A@2e893a4a scala> val b = new B b: B = B@3a47c130 scala> a.asInstanceOf[B] java.lang.ClassCastException: A cannot be cast to B ... scala>

浏览 0提问于2011-07-10得票数 1

回答已采纳

1回答

Sharepoint 2010搜索不会为自定义字段建立索引

、

我正在尝试创建一个托管元数据字段，但它没有显示在我的爬网列中。它是一个自定义字段。我不确定哪里出了问题，但当我搜索时，我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。我不知道这是否相关。我将此列添加到我的视图中，以备需要时使用，但这并不起作用。

浏览 1提问于2010-06-15得票数 1

1回答

DNS预取Google webfonts -哪个域名？

、、、、

我在我的页面上使用了一些谷歌网页字体。使用Google提供的代码，我已经将 <link href='http://fonts.googleapis.com/css?family=Pirata+One' rel='stylesheet' type='text/css'> 在<head>中。看一下这个CSS，就会发现实际的字体托管在http://themes.googleusercontent.com上。现在我想使用DNS预取，但我应该使用哪个域名？http://fonts.googleapis.com、http://th

浏览 2提问于2013-02-12得票数 9

回答已采纳

1回答

sharepoint 2007搜索爬网

我的问题是:我有sharepoint 2007 web应用程序和windows server 2008操作系统。我在SharePoint2007中做搜索，它工作得很好。最近我添加了一个新的网站页面，但它没有出现在搜索结果中。我也在爬虫日志中查找了它，但我没有找到页面的url。新信息当我切换到windows身份验证时，一切都很好，页面是在搜索process.but中找到的，切换回表单身份验证不会使网页出现在搜索结果中。我的问题是:如何让新页面出现在搜索结果中？

浏览 1提问于2013-01-31得票数 0

1回答

以编程方式获取SharePoint快速搜索内容源

、、、

需要帮助才能完成我的C#程序。我的场中有四个内容源。我需要得到所有的内容源，并开始完整的抓取，如果内容源是空闲的。做这件事最好的方法是什么？有人能给我推荐一篇关于Sharepoint搜索对象模型/快速搜索对象模型的好文章吗？

浏览 6提问于2013-03-11得票数 1

回答已采纳

2回答

Facebook粉丝从何而来？

、

我想知道从什么时候起Facebook上的粉丝就是粉丝了？我想出的唯一办法就是抓取粉丝页面的整个feed，然后像墙上的帖子一样追踪第一个帖子。然而，这种方法并不十分准确。有什么想法吗？

浏览 2提问于2011-05-19得票数 0

回答已采纳

1回答

让Google知道生产、开发和测试环境之间区别的最好方法是什么？

、、

我们有三个域名非常接近重复的内容(Magento网站)。让我们称它们为production.com、development.com和staging.com。我在development.com和staging.com上有机器人无索引。我还启用了htpasswds。谷歌对这些域名的搜索显示，它们还没有被索引。然而，当我登录到该软件的后端时，我开始收到来自Chrome的网络钓鱼警告。我需要尽快停止这一切。如果警告扩散到前端，我们将看到相当严重的后果。最佳的行动方案是什么？

浏览 1提问于2013-12-07得票数 0

2回答

使用JavaScript获取新打开网页的URL

、

使用javascript，我需要做的一件事是，当我的索引页面上的一个按钮被点击时，一个新的网页(新窗口)就会打开。这个新网页重定向到另一个网页，使用setTimeout()函数，我关闭新窗口，并将焦点放回到原始索引上。我的问题是，是否有一种方法可以提取重定向网页的URL，以便我可以在我的原始索引中使用它。我试过了 winRef = window.open(url+param); winRef.focus(); loc = window.location; setTimeout("winRef.close()", 3000); 但是这将获得我的原始索引页

浏览 0提问于2011-05-18得票数 2

回答已采纳

3回答

如何从CS工作表中过滤不需要的CS样式？

、、

我有一个外部css表的网页2模板。我想更改它的布局，但保留文本/按钮样式/和布局的某些部分。我面临的主要问题是找出哪些是我需要保留在css文件中的类，哪些是删除它的类。实际上，样式表中定义了很多类。如何从样式表中删除不需要的类和id？？有没有更好的方法，而不是亲自去遍历每个类，并将其与网页源代码进行比较？我正在使用Adobe dreamweaver CS5进行网页设计。

浏览 2提问于2011-04-07得票数 1

回答已采纳

2回答

如何从nutch转储html文件

、

我是nutch新手。我已经从互联网上爬了很多网站。我想要获取片段的html内容。因此，我使用了以下命令进行转储： ./nutch mergesegs crawl/merged crawl/segments/* 然后： ./nutch readseg -dump crawl/merged/* dumpedContent 现在。我在dumpedContent上有两个文件: dump和.dump.crc 转储的大小太大(82 is )。如何将每个原始网页转储到一个文件中？或者如何在小文件中转储？

浏览 1提问于2017-11-02得票数 0

2回答

请问一下页面上的图片，怎样获取它的URL呢？

、

浏览 333提问于2020-10-26

1回答

文智有哪些应用场景？

想做自然语言处理，看咱们有，来问呢

浏览 322提问于2017-04-10

2回答

从页面中删除CSS样式

、、、

我现在正在一个网站上工作，主页与CSS链接正常，显示良好。关于页面，没有明显的原因是没有连接到style.css，相同的标题链接有主页有，除了另外两个样式表，只是为了让两个网页字体工作。有人能看看这个有什么问题吗。我已经复制了页眉中的所有内容。索引 <!DOCTYPE html> <html> <head> <title>The Naked Radish</title> <meta name="description" content="The Naked Radish"&

浏览 1提问于2013-09-19得票数 1

回答已采纳

1回答

为电子商务网站提供9,000种独特产品的SEO

、

我刚刚重建了我的电子商务网站，列出了大约9,000种不同的产品，分为12个不同的类别，分为许多子类别。每种产品都是独一无二的。谷歌似乎不太可能对我的完整目录进行索引，所以我正在考虑将rel=nofollow添加到我所有的分类链接中，只留下指向35页最高价值产品的链接。这是一个好策略吗？其他人在类似的情况下做了什么？谢谢!

浏览 0提问于2011-12-30得票数 0

回答已采纳

1回答

SharePoint 2010 search中的爬网程序影响规则和爬网规则有何不同？

、、

SharePoint 2010 search中的爬网程序影响规则和爬网规则有何不同？

浏览 1提问于2011-02-13得票数 4

回答已采纳

1回答

Google Search Appliance索引数据库中的内容

、

而不是使用google搜索设备爬虫来索引内容，而是使用对sql服务器数据库的查询。查询运行得很好，但我认为所有这些注册表现在都属于默认集合( Google Search Appliance的完整索引)。您知道如何仅使用查询的数据创建新的集合吗？提前谢谢。诚挚的问候。何塞

浏览 0提问于2010-02-09得票数 1

回答已采纳

1回答

simple_html_dom爬行整个网站

、、

我想爬整个网站。我正在使用Simple_html_dom进行解析，但问题是一次只需要一个网页链接。我只想提供开始(主页)链接，它应该爬行和解析该网站的所有网页自动。有什么建议吗？

浏览 1提问于2014-06-07得票数 0

回答已采纳

2回答

SharePoint 2013 -自定义搜索结果

、

我想自定义的搜索结果页面根据自定义的内容，其父内容类型是文章页面。我已经创建了自定义内容类型(EnozomCT)，然后创建了与屏幕截图中的自定义内容类型匹配的结果类型但是当我开始搜索的时候，我会得到所有的结果和一个结果类型的网页

浏览 8提问于2013-08-29得票数 2

1回答

SQL全文索引，ASCII控制字符

、、、

我正在使用SQL Server2008 R2全文索引。我注意到我搜索的一些结果没有包含在结果中。在进一步的调查中，我发现可疑数据包含ASC控制字符()。我的表是一个简单的平面结构，如果任何行包含这些字符中的一个，则不会显示结果。只要我替换数据中的字符，结果就会出现。我在查询中使用CONTAINS。我找不到一个可以证实这种行为的链接。我可以从数据库中删除这些字符，但如果能确认并了解原因会更好。任何帮助都将不胜感激。

浏览 0提问于2013-09-02得票数 0

1回答

Sharepoint Search 2013 -有没有办法为存储在数据库中的URL列表编制索引？

、、、

我有一个数据库表，其中包含我希望Sharepoint Search 2013索引的URL列表，以便它们显示在搜索结果中-这些URL是各种内容类型的混合-网页、Word文档、PDF等。所有的URL都在我的网络内部，但不是Sharepoint页面或存储在Sharepoint中的文件。我在Windows2008 R2服务器上使用Sharepoint 2013企业搜索。有没有人对如何实现这一点有什么想法？我已经搜索了选项，但似乎找不到任何相关的东西- BDC和BCS已经出现了很多，但似乎更多的是连接器返回的索引内容。我想要做的是使用从表返回的数据作为指向要建立索引的项的指针。我对Sharep

浏览 6提问于2014-09-02得票数 0

1回答

关于静态文本链接

引用网页的“静态文本链接”是什么意思。

浏览 0提问于2010-09-28得票数 0

回答已采纳

2回答

如何查看我的网站上所有可公开访问的链接/页面的列表？

、、

我想在我的网站上看到所有公开访问链接的列表，这样我就知道用户可以访问哪些页面。是否有网站或应用程序可以抓取我的网站并显示此类信息？

浏览 1提问于2011-12-04得票数 0

1回答

如何使用Apache Nutch抓取ajax网站？

我想爬这个网站：使用Apache。该网页动态加载ajax内容。如果我用默认配置爬行它，Nutch只会带来头和页脚，动态加载的内容就会丢失。我用的是Nutch 1.14。

浏览 0提问于2018-06-08得票数 0

回答已采纳

1回答

如何使MOSS 2007我的站点配置文件字段不作为可搜索链接？

、、、、

我有一个MOSS 2007实例，其中我的客户希望我的网站配置文件中的内容不显示为链接。我们如何才能做到这一点？我尝试从SSP中删除首选搜索中心url。它做到了这一点，但它也打破了位于页面右上角(欢迎菜单下方)的标准搜索功能。

浏览 1提问于2009-09-28得票数 0

2回答

在Android上将div加载到webview中

、

我有一个安卓应用程序，其中包含一个WebView，我想在它显示的不是一个网页，但只从该网页的div。我应该提一下，我没有访问该页面的权限。

浏览 0提问于2012-07-04得票数 9

回答已采纳

1回答

如何在htacces中将/page.php?1重命名为/welcome.html？

、、、

我有一个cms，不能生成友好的url 什么是最好的方式来重命名，而不得到重复的内容从谷歌。现在我在.htacces中有： RewriteEngine On RewriteBase / RewriteRule welcome.html page.php?1[L] RewriteRule about-us.html page.php?2[L] 这是最好的方法吗？任何帮助都将不胜感激

浏览 2提问于2010-12-02得票数 0

回答已采纳

1回答

Nutch:数据读取和添加元数据

、、、、

我最近开始寻找apache nutch。我可以做设置，并能够用nutch抓取我感兴趣的网页。我不太理解如何读取这些数据。我基本上希望将每个页面的数据与一些元数据(现在是一些随机数据)关联起来，并将它们存储在本地，稍后将用于搜索(语义)。我需要使用solr或lucene来做同样的事情吗？我对所有这些都是新手。据我所知，Nutch是用来抓取网页的。它可以做一些额外的功能，比如向爬行的数据添加元数据吗？

浏览 1提问于2012-05-27得票数 5

回答已采纳

3回答

Sharepoint搜索不起作用

、、

平台:服务器2008上的MOSS 2007 Sharepoint正在工作等... 问题:当你搜索某个东西时，它什么也找不到，也没有错误。身份验证和权限看起来都很好。搜索服务已启动并正在运行。可能的问题是什么？任何我可能错过的检查点，任何我应该检查的糟糕的配置，等等…？

浏览 0提问于2009-07-07得票数 4

1回答

Google Translator工作流

有人能告诉我，一个网页的内容是如何发送到谷歌翻译和翻译，并再次显示在同一个网页上?我的意思是完整的工作流程的谷歌网站翻译。

浏览 0提问于2010-07-09得票数 0

回答已采纳

1回答

如何隐藏我的IP在python中进行网络抓取？

、、、

我正在用python在一些页面上做web抓取，我已经被其中的一些阻止了。当我试图通过TOR浏览器检查它时，我已经看到我无法访问页面，所以我认为这些页面已经能够跟踪我所有的IP或我没有很好地配置TOR (我认为不是因为我用Chrome和TOR检查了我的IP地址和TOR是不同的)，所以，有人知道为什么吗？此外，我正在尝试在我的python代码中执行一个函数或方法来自动更改mi IP。我所看到的是，最好的方法是通过TOR浏览器(将其用作从页面获取数据的搜索引擎)，但我无法使其工作。你对创建这个函数有什么建议吗？谢谢!

浏览 19提问于2020-05-21得票数 2

回答已采纳

1回答

在android中开发web应用程序

我想开发一个安卓应用程序，将访问网页pages.Like我的浏览器将首先加载"www.mail.yahoo.com".then它会自动设置雅虎的id和密码，我会告诉从我的program.then它会自动点击登录登录到登录in.Like网页浏览器控制在visual basic 6或在c# application.In安卓我可以浏览网页使用网页视图，但没有任何方式来访问html内容，因为我一直在尝试一个week.If任何人都将是非常高兴。谢谢

浏览 1提问于2011-02-28得票数 0

1回答

如何使用Scrapy在页面中爬行？

、、

我使用Python和Scrapy来回答这个问题。我试图抓取网页A，它包含指向网页的链接列表-- B1、B2、B3、.每一个B页面都包含一个指向另一个页面的链接，C1、C2、C3、.，其中包含一个图像。所以，使用Scrapy，在伪代码中的思想是： links = getlinks(A) for link in links: B = getpage(link) C = getpage(B) image = getimage(C) 然而，当我试图在Scrapy中解析多个页面时，我遇到了一个问题。这是我的代码： def parse(self, response):

浏览 1提问于2013-06-10得票数 5

回答已采纳

2回答

可以在C++中创建网页吗？

、、

我在维基百科的一些网页上看到，它们是用C++编写的。如果网页语言是HTML、CSS和JavaScript，那么用C++创建网页背后的原因是什么？

浏览 1提问于2017-10-28得票数 0

2回答

TYPO3: indexed_search -索引所有页面而无需首先访问

、

通常，indexed_search只对已经访问过的页面进行索引。如果用户没有访问过该页面，则不会有搜索结果。有没有一种不需要访问就能索引所有页面的方法？或者我必须使用另一个扩展？ Typo3: v4.2.8 Indexed_search: v2.11.1

浏览 0提问于2012-01-16得票数 0

回答已采纳

2回答

最好的方法移动到一个新的网页与请求-承诺？

、、

我正在修改请求--答应我爬一个朋友的网页。我在他们的GitHub上使用了GitHub示例。到目前为止，我得到的是： var rp = require('request-promise'); var cheerio = require('cheerio'); // Basically jQuery for node.js var options = { uri: 'https://friendspage.org', transform: function(body) { return cheerio.load(body); }

浏览 4提问于2018-10-30得票数 0

回答已采纳

2回答

如何存储从网页抓取的数据

、

我想在我的web应用上建立一个教育搜索引擎，所以我决定使用PHP从我的网页上抓取大约10个网站，并将数据存储到我的数据库中以供以后搜索。如何检索此数据并将其存储在数据库中？

浏览 0提问于2011-05-07得票数 1

1回答

动态站点地图的创建过程是什么？

、

我正在工作的网站有12 12Lack页面，所以，我想要建立动态网站地图因此我想知道动态站点地图创建的过程。告诉我是否有其他方法为这样的网页创建站点地图。谢谢Pawan

浏览 0提问于2013-03-08得票数 -1

1回答

显示“此视图中当前没有社区”的Sharepoint 2013社区门户

、

我创建了一个社区门户网站和几个社区网站。但我不断得到“目前在这个视图中没有社区”。在社区门户上。我试图重新索引搜索，并做了完整的爬行，但没有帮助。对内容搜索for部件(webtemplate:community)中的查询的测试根本没有返回结果。创建社区站点后，是否需要执行任何步骤，以便搜索这些站点？

浏览 1提问于2014-10-21得票数 0

2回答

网站内容清理工具？

我正在与一个客户合作，将一个网站从现有的生产硬件迁移到新的硬件环境中。现在似乎是执行审计并删除任何旧的或过时的内容而不是盲目复制它的绝佳时机。有没有什么好的免费工具或脚本可以用来将服务器上的web可访问内容与服务器上的实际文件进行比较，以查看实际链接和使用的内容是什么？提前感谢您的帮助！

浏览 1提问于2009-07-07得票数 2

3回答

关于Google搜索设备的爬网urls

、、、

我们有一个需求，我们需要抓取一组特定的URL。比方说，我们有site abc.com。我们需要抓取abc.com/test/ need --在“need”文件夹下匹配此模式的所有URL。但我们不想抓取abc.com/test/下的其余URL。我猜这将使用RegEx来完成。关于RegEx，有人能帮我吗？

浏览 2提问于2014-06-05得票数 0

2回答