腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
仅
使用
HtmlAgilityPack
从
SelectNode
抓取
一些
内部
文本
、
、
我一直在
使用
HtmlAgilityPack
来解析网页中的
一些
html。</div> </div>return node有没有一种方法可以排除
浏览 16
提问于2020-03-11
得票数 0
1
回答
从
HTML中
抓取
不是来自头的
内部
文本
、
、
使用
HTMLAgilityPack
for C#,我将如何从不是来自<h1-6>的HTML中获取
内部
文本
。我不想
使用
正则表达式,但是
使用
HTMLAgilityPack
。document.LoadHtml (text);在处理大量
文本
时最好是删除标题标签,然后
浏览 5
提问于2013-08-17
得票数 0
回答已采纳
1
回答
C#
HtmlAgilityPack
-刮擦
、
我想
使用
HtmlAgilityPack
从
GSMArena.com中
抓取
内容,具体来说,我想刮掉手机的技术规格。 i想要擦拭重量、尺寸等 问题:节点路径在几乎所有模型之间都是不同的。例如,如果我想刮掉产品的重量,有没有办法告诉
HTMLAgilityPack
搜索一个标记,然后转到它后面的TD,然后刮掉TD的
内部
文本
?
浏览 0
提问于2014-12-03
得票数 0
回答已采纳
2
回答
抓取
.HTM文件时出现问题
、
、
、
我刚刚开始
从
网页上
抓取
基本
文本
,目前正在
使用
HTMLAgilityPack
C#库。我在rivals.yahoo.com上的boxscore上取得了
一些
成功(体育是我的事情,所以为什么不刮点有趣的东西呢?)但是我被困在NHL的游戏摘要页面上了。我正在测试的页面是: 乍一看,它看起来像是没有ajax或其他东西的基本
文本
,弄乱了一个基本的
抓取
器。然后我意识到由于
一些
javascript的原因我不能右击,所以我解决了这个问题。我在火狐中右击
浏览 1
提问于2010-10-21
得票数 2
回答已采纳
1
回答
使用
超
文本
标记语言敏捷包(VB.net)
从
WebBrowser活动中
抓取
文本
、
、
、
我想
使用
HTML agility pack在Windows form中提取WebBrowser活动中的字段/
文本
。我可以在后台
抓取
文本
,但我想在表单内的WebBrowser中进行
抓取
。Imports SystemImports
HtmlAgilityPack
Private Sub Form1
浏览 15
提问于2021-03-28
得票数 0
回答已采纳
4
回答
使用
htmlAgilityPack
从
<a>标记中
抓取
所有
内部
文本
、
、
、
、
我想从链接中删除所有单词,我尝试了这样的方法:
HtmlAgilityPack
.HtmlDocument doc = web.Load("http它显示“没有找到”意味着它返回null.How --在这种情况下,我能从<a>标签中获取所有的
文本
吗??,谁能告诉我SelectNodes(“”)??中应该是什么?
浏览 10
提问于2013-02-22
得票数 0
回答已采纳
4
回答
读取c#?
、
、
我正在用C#开发一个程序,我需要
一些
帮助。我正在尝试创建一个显示在某个网站上的数组或项目列表。我想要做的是读取锚
文本
,它是href。
浏览 0
提问于2012-05-23
得票数 3
回答已采纳
1
回答
C#中的SendKeys类
、
、
我有一个c#程序,它
使用
Process类启动Internet Explorer并转到一个url。我
使用
SendKeys.SendWait("abc")将字符串发送到Internet Explorer (活动窗口)中的页面。
浏览 2
提问于2009-07-15
得票数 1
3
回答
如何在C#中获取网页中的所有显示
文本
、
嗨,我在C#中从事数据
抓取
应用程序的工作。HtmlWeb web = new HtmlWeb();string str = doc.DocumentNode.InnerText; 这个
内部
的html也返回了
一些
标签和脚本,但是我只想得到对用户可见的显示
文本
浏览 0
提问于2013-10-26
得票数 4
1
回答
通过标签名称排除某些后代,然后
抓取
文本
、
、
、
我正在
使用
C#中的
HtmlAgilityPack
从
网页上
抓取
一些
数据。我得到了包含我想要获取的所有
文本
的元素,但问题是我想要排除某些元素,例如和元素。
一些
页面在随机位置有元素,目前
HtmlAgilityPack
正在将CSS规则作为
文本
包含在内。string.IsNullOrEmpty(x.InnerText)).ToList(); "paragraphElements“包含所有元素,但其中
一些
元素包含我不希
浏览 2
提问于2015-05-13
得票数 0
4
回答
使用
C#和.NET框架进行屏幕
抓取
、Web
抓取
、Web获取、Web数据提取等
、
、
、
、
我正在开发一个用于网络采集、网络
抓取
、网络数据提取、屏幕
抓取
等功能的Microsoft .NET Application in C#,不管你怎么称呼它。我已经包括了
一些
规格和图像,我有到目前为止,并希望得到您的意见,我可以继续下去。基本上,我想做
一些
类似于Visual开膛手
使用
的布局,但我不知道他们是如何做到的。有什么想法吗?Specifications: 我的目标是使一个非常用户友好的点击式应用程序下载数据和图像
从
网上。我希望
使用
web浏览器加载HTML页面,并将分析
浏览 6
提问于2012-02-28
得票数 3
回答已采纳
4
回答
删除
HtmlAgilityPack
中无用的TextNodes
、
、
我正在
使用
HtmlAgilityPack
抓取
一些
网站。问题是,它似乎坚持在大多数地方插入TextNodes,这些地方要么是空的,要么是包含大量\n、空格和\r的地方。当我计算子节点时,它们往往会给我带来问题,因为firebug不会显示它们,但
HtmlAgilityPack
会显示它们。有没有办法告诉
HtmlAgilityPack
停止这样做,或者至少清除这些
文本
节点?(不过我想保留
一些
有用的东西)。在这里,注释和脚本标记也是一样的。
浏览 0
提问于2012-07-05
得票数 5
1
回答
如何在C#的HTML Source中按类或id
抓取
元素?
、
、
、
我正在尝试
从
基于类或id名称的HTML源
抓取
元素,
使用
C# windows窗体应用程序。我
使用
WebClient将源代码放入字符串中,并
使用
HtmlDocument将其插入到
HTMLAgilityPack
中。但是,我在
HTMLAgilityPack
包中找到的所有示例都是根据标签解析和查找项目的。我需要找到一个特定的id,比如html中的链接,并检索标记
内部
的值。这是可能的吗?最有效的方法是什么?
浏览 3
提问于2011-10-19
得票数 6
回答已采纳
1
回答
在哪里可以得到用户代理的列表?理想情况下是API
我正在创建一个相当精细的API,它所做的部分工作是发出请求和
抓取
等等。我需要一个用户代理列表来供API
使用
。例如,有人可能会访问我的API,并请求
使用
最新的代理、IE6或默认代理来刮取FireFox。 我的问题是,有人知道API吗?我可以检索大量的用户代理列表并定期更新我的列表吗?我找不到任何好的选择。
浏览 1
提问于2013-11-15
得票数 1
回答已采纳
3
回答
使用
C#的可编程WebCrawler
、
、
我想从一个已知的Url中提取特定的数据:
从
html标签中提取,比如span,a,div...!谢谢!
浏览 0
提问于2011-06-28
得票数 0
回答已采纳
1
回答
为XPath获得适当的SelectNodes
、
、
我刚刚开始
使用
HtmlAgilityPack
从
网站上
抓取
一些
文本
。我已经进行了实验,发现
一些
网站在
使用
XPath方法时比其他网站更容易获得合适的SelectNodes。例如,在探索Google中的DOM时,我能够复制XPath://*[@id="page"]/span/table[7]/tbody/tr[1]/td/span[2]/a,然后我会
浏览 2
提问于2016-05-29
得票数 0
回答已采纳
3
回答
HtmlAgilityPack
-如何在大型网页中
抓取
<DIV>数据
、
、
、
我试图从一个网页
抓取
数据,<DIV>的特殊类<DIV class="personal_info">它有10个类似的<DIV>S和是相同的类" personal_info“(如超
文本
标记语言代码所示),现在我想提取类Rama Anand</span><br><br> Mobile: 9916184586<br>rama_asset@hotmail.com<br> Bangalore</div> 为了做必要
浏览 4
提问于2011-07-01
得票数 1
1
回答
将HTML解析为父-子对象C#
、
、
、
、
我正在解析html页面,而且我对这类解析还不熟悉,您能建议我按照html来解析吗? HTML:这是我所能做的代码,但是没有添加到对象中,除了Fizzler,在本例中还有其他解析器可以完成。var html = new HtmlDocument(); // with HTML Agility pack html.LoadHtm
浏览 3
提问于2014-04-11
得票数 0
回答已采纳
2
回答
C# Httpwebrequest -
从
链接下面获取表格数据
、
、
、
、
., 'Example String')]我试过了 //a[contains(., 'Example
浏览 0
提问于2018-03-20
得票数 0
2
回答
WebBrowser不更新DocumentText吗?
、
每当我通过HtmlElement.Id为
一些
元素分配Id,然后读取WebBrowser.DocumentText属性时,元素的Id并没有我分配给它的Id。我尝试通过HtmlElement.Id获取Id,Id就是我分配的Id,但我需要的是找到一种
从
HtmlDocument (.net)映射到
HtmlAgilityPack
.HtmlDocument的方法,所以我想为每个元素分配一个惟一的Id,然后在每次我想访问特定元素时
使用
HtmlAgilityPack
读取DocumentText,然后在两端
使用</
浏览 2
提问于2010-06-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
html-agility-pack:一个开源 HTML 解析器,并支持纯 XPATH 或 XSLT
NET Core 实现简单爬虫—抓取博文列表
net core 实现简单爬虫—抓取博客园的博文列表
使用多个Python库开发网页爬虫(一)
手把手教你运营:SEO基础-技术-robots
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券