开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >从HTML中提取文本

问从HTML中提取文本
EN

Stack Overflow用户

提问于 2012-02-20 19:18:42

回答 1查看 84关注 0票数 1

我正在更新我的网站以设置rDNS，但我在这里询问您对此如何处理我的问题的意见。我将所有IP (IPv4)都放在一个名为$aIP的数组中。现在我有一个这样的列表：

<tr><td>1.2.3.4</td><td>hostname.bla.com</td><td><a href="edit-reverse.cgi?id=1">myserver.com</a></td></tr>
<tr><td>1.2.3.5</td><td>hostname.bla.com</td><td><a href="edit-reverse.cgi?id=2"><i>not set</i></a></td></tr>
<tr><td>1.2.3.6</td><td>hostname.bla.com</td><td><a href="edit-reverse.cgi?id=3"><i>not set</i></a></td></tr>
<tr><td>1.2.3.7</td><td>hostname.bla.com</td><td><a href="edit-reverse.cgi?id=4">test.myserver.com</a></td></tr>
<tr><td>1.2.3.8</td><td>hostname.bla.com</td><td><a href="edit-reverse.cgi?id=5"><i>not set</i></a></td></tr>
<tr><td>1.2.3.9</td><td>hostname.bla.com</td><td><a href="edit-reverse.cgi?id=6"><i>not set</i></a></td></tr>

现在，我需要当前的URL值(在本例中是myserver.com、not set或test.myserver.com)，还需要它所链接的值或完整的rDNS (edit-reverse.cgi?id=1或1)，该url链接到数组$aIP中的IP地址。

这将是预期的输出(不是这种输出格式，而是数组或其他格式)：

1.2.3.4 => 1, myserver.com
1.2.3.5 => 2, not set
1.2.3.6 => 3, not set
1.2.3.7 => 4, test.myserver.com
1.2.3.8 => 5, not set
1.2.3.9 => 6, not set

请记住，并不是我拥有的所有IP地址都在$aIP数组中，所以基本上它应该遍历HTML代码并根据$aIP数组搜索值。

我正在考虑使用正则表达式，但我对它们了解不多，因此它可能是非常低效的代码。处理这个问题的最好方法是什么？

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-02-20 21:28:31

我找到了一个完美的解决方案，使用本机函数：

/*** a new dom object ***/ 
$dom = new domDocument; 

/*** load the html into the object ***/ 
$dom->loadHTML($html); 

/*** discard white space ***/ 
$dom->preserveWhiteSpace = false; 

/*** the table by its tag name ***/ 
$tables = $dom->getElementsByTagName('table'); 

/*** get all rows from the table ***/ 
$rows = $tables->item(0)->getElementsByTagName('tr'); 

/*** loop over the table rows ***/ 
foreach ($rows as $row) 
{ 
    /*** get each column by tag name ***/ 
    $cols = $row->getElementsByTagName('td'); 
    /*** echo the values ***/ 
    echo $cols->item(0)->nodeValue.'<br />'; 
    echo $cols->item(1)->nodeValue.'<br />'; 
    echo $cols->item(2)->nodeValue; 
    echo '<hr />'; 
}

可在http://www.phpro.org/examples/Parse-HTML-With-PHP-And-DOM.html找到

谢谢大家。

票数 2

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/9367067

复制

相关文章

Python | 从 PDF 中提取文本内容

python git github https

本来打算推一篇如何使用 Python 从 PDF 中提取文本内容的文章，但是因为审核原因，公众号上发不出来。尝试排查了一个小时，还是没有搞定，索性就放弃挣扎了。我在这里放出来文章的第一部分，如果有兴趣，可以前往我的 Github 或者码云上查看全文。

PyStaData

2020/07/21

3.1K0

使用Scrapy从HTML标签中提取数据

scrapy html 数据挖掘

Scrapy是一个用于创建Web爬虫应用的Python框架。它提供了相关编程接口，可以通过识别新链接来抓取Web数据，并可以从下载的内容中提取结构化数据。

PantaZheng

2018/09/17

10.2K0

使用Scrapy从HTML标签中提取数据

Python笔记从html中提取字段

def fun(): # url = 'http://quote.eastmoney.com/sh600010.html?from=BaiduAladdin' url_total =

学到老

2018/03/16

1.2K0

Python笔记从html中提取字段

python html 笔记

def fun(): # url = 'http://quote.eastmoney.com/sh600010.html?from=BaiduAladdin' url_total =

学到老

2019/02/14

1.1K0

38 - 提取HTML页面中的URL

# 提取HTML 页面中所有的url，要求，这些url 都属于a 节点的href 属性 ''' 1. 分析a节点的正则表达式 2. 利用分组提出href属性的值（url） ''' import re s = '<a href="https://geekori.com">极客起源</a> <a href="https://www.baidu.com">百度一下</a>' result = re.findall('<a[^>]*href="([^>]*)">', s, re.I) print(resul

ruochen

2021/05/25

2.3K0

38 - 提取HTML页面中的URL

PHP 提取富文本中的全部图片（提取文章中的全部图片）

未经允许不得转载：肥猫博客 » PHP 提取富文本中的全部图片（提取文章中的全部图片）

超级小可爱

2023/02/20

2.2K0

Python批量提取PDF文件中的文本

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。 import os import sys import time pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf')) for pdf1 in pdfs: pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_') os.rename(pdf1, pdf

Python小屋屋主

2018/04/16

6K0

ChemDataExtractor:从PDF、HTM、文本等中提取化学数据

NLP 服务开源

ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章，它将从文本中提取化学名称、属性和光谱，以便将它们导入数据库或电子表格。

DrugAI

2021/01/28

2.8K0

关于从文本中提取数字，这些公式各显神通

编程算法 php

很多时候，要达到目的并不会只有一种方法，正是这样，才会体现出创新性和创造力，也才更有趣。

fanjy

2022/11/16

1.3K0

关于从文本中提取数字，这些公式各显神通

ChemDataExtractor:从PDF、HTM、文本等中提取化学数据

python NLP 服务开源

ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章，它将从文本中提取化学名称、属性和光谱，以便将它们导入数据库或电子表格。

DrugAI

2021/01/28

1.7K0

excel数据提取技巧：从混合文本中提取数字的万能公式

在上一篇文章中，小花讲解了通过观察混合文本特征，设置特定公式，完成数据提取的三种情景。于是，有些小花瓣悄悄跟小花说：小花老师，我笨，看不出数据特征，我又懒，不想分情景设置不同公式，有没有那种霸王级万能公式，啥混合文本咱都可以硬上弓？

用户8639654

2021/07/26

6.2K0

文本提取仨兄弟

周二 · 函数　　关键词：left、right、mid 1语法 =Left(text,[num_chars]) =Right(text,[num_chars]) =Mid(text,start_num,num_chars) 在单元格输入=LEFT(、=RIGHT(或=MID(，就会提示上述语法 Left、Right是指从字符串text中，提取最前/最后几位字符 Mid是从第start_num位数起，提取num_chars长度的字符仨函数返回的均为文本类型，哪怕是从数值中提取 2基本用法大陆18位身份证身

企鹅号小编

2018/01/10

7740

R语言提取PDF文件中的文本内容

json bash bash 指令 c#

综上步骤，我们便可以随便获取任意章节的任意内容。那么接下来就是对这些文字的应用，各位集思广益吧。

一粒沙

2019/07/31

9.8K1

使用 Python 和 TFIDF 从文本中提取关键词

关键词提取是从简明概括长文本内容的文档中，自动提取一组代表性短语。关键词是一个简短的短语（通常是一到三个单词），高度概括了文档的关键思想并反映一个文档的内容，清晰反映讨论的主题并提供其内容的摘要。

数据STUDIO

2022/05/24

4.5K0

使用 Python 和 TFIDF 从文本中提取关键词

HTMl网页中的文本和图像

html 搜索引擎 list 互联网浏览器

JaneYork

2023/10/11

2290

LyScript 从文本中读写ShellCode

LyScript 插件通过配合内存读写，可实现对特定位置的ShellCode代码的导出，或者将一段存储在文本中的ShellCode代码插入到程序堆中，此功能可用于快速将自己编写的ShellCode注入到目标进程中，以用于后续测试工作。

微软技术分享

2022/12/22

5630

LyScript 从文本中读写ShellCode

提取多个html生成单个html

#!/bin/bash # coding=utf-8 """ 作者：gaojs 功能：新增功能： schedule 是一个第三方轻量级的任务调度模块，可以按照秒，分，小时，日期或者自定义事件执行时间。 schedule 允许用户使用简单、人性化的语法以预定的时间间隔定期运行 Python 函数（或其它可调用函数） demo如下： schedule.every(10).seconds.do(job

懿曲折扇情

2022/08/24

1.1K0

LyScript 从文本中读写ShellCode

LyScript 插件通过配合内存读写，可实现对特定位置的ShellCode代码的导出，或者将一段存储在文本中的ShellCode代码插入到程序堆中，此功能可用于快速将自己编写的ShellCode注入到目标进程中，以用于后续测试工作。

微软技术分享

2022/12/28

6130

LyScript 从文本中读写ShellCode

基于神经网络的文本特征提取——从词汇特征表示到文本向量

https://blog.csdn.net/u011239443/article/details/80898514 在实际系统我们会接触到许许多多的文本类型数据。如何将这部分数据用于作为机器学习模型的输入呢？一个常用的方法是将文本转化为一个能很好的表示它的向量，这里将称该向量称作为文本向量。本文将以尽可能少的数学公式介绍目前业界比较流行的基于神经网络进行文本特征提取，得到文本向量的方案。

小爷毛毛_卓寿杰

2019/02/13

1.6K0

基于神经网络的文本特征提取——从词汇特征表示到文本向量

点击加载更多

相似问题

从html中提取文本？

48

从HTML中提取文本

23

javascript:从html提取文本

30

如何从html中仅提取文本？

42

从HTML文本中提取特定文本

22

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例