开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >改进regex语句，使其尽可能高效

问改进regex语句，使其尽可能高效
EN

Stack Overflow用户

提问于 2010-12-22 11:41:33

回答 4查看 125关注 0票数 2

我有一个PHP程序，在某个时候，需要分析大量的HTML+javascript文本来解析信息。我想要解析的东西需要分为两部分。

分离所有"HTML goups“以进行解析
解析每个HTML组以获取所需的信息。

在第一个解析中，它需要找到：

<div id="myHome"

然后开始捕捉那个标签。那就停止捕捉之前

<span id="nReaders"

捕捉这个标签后面的号码然后停止。

在第二个解析中，使用捕获编号1 (0有整件事情，2有数字)从前面进行的解析，然后查找。

我已经有代码可以这么做了。有什么方法可以改进这一点，使机器更容易解析吗？

preg_match_all('%<div id="myHome"[^>]>(.*?)<span id="nReaders[^>]>([0-9]+)<"%msi', $data, $results, PREG_SET_ORDER);
foreach($results AS $result){
    preg_match_all('%<div class="myplacement".*?[.]php[?]((?:next|before))=([0-9]+).*?<tbody.*?<td[^>]>.*?[0-9]+"%msi', $result[1], $mydata, PREG_SET_ORDER);
//takes care of the data and finish the program

注意:我需要这个免费软件程序，所以它必须尽可能通用，如果可能的话，不要使用php扩展。

补充:我在这里省略了一些部分，因为我没想到会有这样的答案。还需要在文档中的一个标记中解析文本。它可能是第六、第七或第八标记，但我知道它是在某个标签之后。我检查的解析器()确实可以找到脚本标记。现在怎么办？有多个标签具有相同的类。我想要所有的。但我只想要一份课程清单……在哪里可以找到DOM解析器的指令、演示和限制(就像http://simplehtmldom.sourceforge.net/中的那样)？我需要的东西，将工作，至少，大量的免费服务器。还有一件事。我如何解析这个部分："php?=(0-9+)“和那些HTML解析器？

语音识别特惠，低至14.9元！

提供业界非常具有性价比的语音识别服务，超高识别准确率，适用多场景

EN

回答 4

Stack Overflow用户

发布于 2010-12-22 11:47:59

如果您关心的是效率(甚至是准确性)，不要尝试使用regex解析HTML。

您应该使用解析器，例如PHP的DOM

票数 3

EN

Stack Overflow用户

发布于 2010-12-22 11:47:25

如前所述，regex并不适合这样做。你最好用这样的方法：

健壮成熟的PHP HTML解析器

票数 1

EN

Stack Overflow用户

发布于 2010-12-22 12:35:47

效率并不重要，如果你的结果是不正确的。使用regexes解析HTML将导致不正确的结果。使用解析器。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4513038

复制

相关文章

Python 在 Wiki 标记中添加无

Python编程快速上手实践项目题目，欢迎指证与优化！代码： #! python3 # bulletPointAdder.py - Adds Wikipedia bullet points to the start # of each line of text on the clipboard. import pyperclip text = pyperclip.paste() # 从剪贴板粘贴文本 lines = text.split('\n') # 使用 split()方法得到一个字符串的列表，以回

py3study

2020/01/09

3K0

在 NLP 中训练 Unigram 标记器

nlp 继承模型数据语法

单个标记称为 unigram。Unigram 标记器是一种只需要一个单词来推断单词的词性标记器类型。它有一个单词的上下文。NLTK库为我们提供了UnigramTagger，并从NgramTagger继承而来。

很酷的站长

2023/08/11

3140

在 NLP 中训练 Unigram 标记器

快速在组合中查找重复和遗失的元素

? ? ? ? ? ? ? ?

望月从良

2018/09/29

4.4K0

快速在组合中查找重复和遗失的元素

在可编辑div中定位光标和设置光标

当我们去点击一个输入框的时候，就会产生一个选中对象 selection，就是我们可以看到的文字变成蓝色的那个区域，selection在火狐浏览器可以直接用 window.getSelection()获取，在HTML里面，selection只有一个的，并且selection是一个区域，你可以想象成一个长方形，它是有开始和结束的。

越陌度阡

2020/11/26

9.5K0

Android 百度地图SDK 自动定位、标记定位

android android studio sdk ide xml

如果是你满意的那样，我们就可以开始写了，首先创建一个名为MapDemo的项目。打开AndroidManifest.xml，复制你的包名

晨曦_LLW

2022/05/10

2.5K1

Android 百度地图SDK 自动定位、标记定位

Java--类和对象之组合和继承

上一篇：类和对象之初始化和清除类的组合的实现很简单，只需要在新类中置入对象句柄即可： class Door{ //字段和方法 } class Wheel{ //字段和方法 } public class Car{ Door d = new Door(); wheel w = new wheel(); //其他字段和方法 } 类的继承需要使用关键字extends. 创建一个类时肯定会使用继承，因为每个类都是继承自根类Object. class animal{

SuperHeroes

2018/05/22

1.1K0

对象的组合

java 编程算法安全容器

同步策略规定了如何将不变性条件、线程封闭和加锁机制结合起来以维护线程的安全性，并且规定了哪些变量由哪些锁来保护

JavaEdge

2022/11/29

4090

json文件处理对象标记

json 编程算法 python

JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。Pycharm

用户2200417

2022/02/28

8320

HTML布局标记和列表标记

border table 表格布局

首先要介绍的布局标记是div标记，div可以做网页的层也可以做网页的分区。当div做网页的层时可以实现漂浮在网页上的效果，就像我们经常可以在网站里看见的那些漂浮广告。div做网页的分区时，则是可以布置网页的格局，把一个网页分为多个模块，由这些模块结构来构建出一个网页。

端碗吹水

2020/09/23

4.2K0

css中绝对定位_绝对定位和相对定位怎么用

bottom属性描述时，以首屏页面左下角为参考点如果浏览器不动，滚动条动的时候，红色盒子跟随页面动，红绿盒子间距不变。

全栈程序员站长

2022/11/17

2.6K0

css中绝对定位_绝对定位和相对定位怎么用

d3.js在博客园中的展示例子

<style><!-- .link { stroke: red; stroke-linejoin:bevel; } .link_error{ stroke:red; stroke-linejoin:bevel; } .nodetext { font: 12px sans-serif; -webkit-user-select:none; -moze-user-select:none; stroke-linejoin:bevel; } #conta

用户1174963

2018/01/17

1.1K0

在 Text 中实现基于关键字的搜索和定位

前些日子，一位网友在聊天室中就如下的问题[3] 与大家进行了交流与探讨 —— 如何通过 Text + AttributedString 实现类似文章关键字检索的功能，并可通过按钮在搜索结果中进行滚动切换？

东坡肘子

2022/12/16

4.2K0

在 Text 中实现基于关键字的搜索和定位

在Cookie中存储对象

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/huyuyang6688/article/details/46955119

DannyHoo

2018/09/13

3.8K0

JSON对象标记语法验证类

groovy apache https 网络安全 socket编程

在接触过JsonPath工具，我发现了使用标记语法编写文本形式的验证的可行性。在完成了基本JsonPath功能封装和Groovy终极重载操作符功能之后，自我感觉已经非常完善了，所以停了一阵子。之前的成果如下：

FunTester

2021/01/05

7380

浅谈对象的创建、内存布局和访问定位

java 编程算法存储

　　这里的对象的创建是指普通的对象（不包括数组和Class对象）。对象的创建简单来说就是执行new的时候，虚拟机做出对应的响应。让我们看看一下虚拟机创建对象的过程： 1.虚拟机遇到new指令时，首先尝试在常量池中定位到对应类的符号引用，并检查这个符号引用代表类是否已被加载、解析和初始化过。如果没有，那必须先执行相应的类加载过程（后续会写一下关于类加载的问题）。 2.类加载检查通过后，为新生对象分配内存。对象内存的大小在类加载完成后便可完全确定。对象内存分配有“指针碰撞”和“空闲列表”两种方法，“指针碰撞”是把已用内存放到指针的一边，未用的放到另一边，以指针分隔，当需要分配一个新对象内存时把指针往未分配内存那边移动相对应的空间即可；“空闲列表”是因为内存已用的和未用的并不是规整的，它们是交错的，所以需要一个列表记录内存块的情况。Java堆是线程之间共享的内存，虚拟机采用CAS配上失败重试的方式保证更新操作的原子性保证内存指针修改并发安全性；另一种方法是“本地线程分配缓冲（Thread Local Allocation Buffer TLAB）”。 3.将虚拟机分配到的内存空间初始化为零值。 4.对对象进行必要的设置。其实是对对象头编写。 5.完成上面4个步骤执行new指令后会接着执行方法到此对象才算完成生产出来。

GreizLiao

2019/09/24

7370

【文末送书】JAVA设计模式之组合模式，以统一的方式处理单个对象和组合对象

java 容器对象接口设计模式

组合模式是一种结构型设计模式，它允许你将对象组合成树状结构，并以递归方式处理这些对象。组合模式使得客户端可以以统一的方式处理单个对象和组合对象。

Designer 小郑

2023/10/10

6250

【文末送书】JAVA设计模式之组合模式，以统一的方式处理单个对象和组合对象

Scala简介：面向对象和函数式编程的组合

Scala简介 “Scala是一门现代的多范式编程语言，志在以简练、优雅及类型安全的方式来表达常用编程模式。它平滑地集成了面向对象和函数语言的特性。” Scala意在伸缩性，语言的伸缩性受许多因素影响，范围从语法细节到控件的抽象构造。如果我们一定要说出Scala中有助伸缩性的一个方面，我们会把面向对象和函数式编程的组合拣出来（呵呵，不厚道了一把，这的确是两个方面，但是纠缠在了一起）。 Scala在把面向对象和函数式编程熔合成一套语言的设计方面比其他众所周知的语言都走得更远。比方说，其他语言或许把对象和方

Albert陈凯

2018/04/04

1.2K0

机器学习在组合优化中的应用（上）

编程算法学习方法强化学习机器学习监督学习

运筹学自二战诞生以来，现已被广泛应用于工业生产领域了，比如交通运输、供应链、能源、经济以及生产调度等。离散优化问题（discrete optimization problems）是运筹学中非常重要的一部分，他们通常可以建模成整数优化模型进行求解，即通过决定一系列受约束的整数或者0-1变量，得出模型最优解。

短短的路走走停停

2021/03/04

3K0

在 JavaScript 中如何克隆对象？

json https javascript 网络安全编程算法

我们假设一个变量 name 具有一个与之关联的原始值（number，string，boolean，undefined 和null）。如果我们将此变量 name 复制到另一个变量name2 ，则原始变量的任何修改都不会影响到第二个变量，因为它们是原始值。

前端小智@大迁世界

2022/06/15

4.7K0

点击加载更多

相似问题

d3.js径向定位对象周围的元素

11

在spatstat中组合两个点模式对象创建组合标记

15

d3.js组合图线和散点图

11

使用d3.js定位xAxis和yAxis

10

组合<a>标记和<label>

42

活动推荐

即时通信IM，低门槛快速接入

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例