正则抓取 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

在PHP中可以从字符串的开头获取图像URL吗？

php、regex、image、parsing

我可以成功地使用正则表达式来抓取所有图像的URL，但它也可以抓取文本中的最后一个google.com图像。谢谢你的任何想法！！

浏览 0提问于2012-06-24得票数 1

回答已采纳

2回答

使用C#抓取网页(Html)

c#、html、regex、xpath

目前，我正在做网页抓取使用正则表达式。但是我认为有时候弄清楚正则表达式太难了，所以我在想，XSL/XPath是C#中正则表达式的替代方案吗？另外，我想知道除了上面列出的两种技术之外，是否还有更先进的网页抓取技术。谢谢。

浏览 0提问于2011-02-17得票数 4

回答已采纳

4回答

正则表达式-匹配某些字符后的文本

ruby、regex

我想从一些文本中抓取数据并将其转储到一个数组中。Example Data| Content: This is sample content我目前使用以下正则表达式来抓取=:).+)/另外，我不确定我这样做是否正确..但是看起来好像外括号会导致匹配返回一个数组。这是parens的函数吗？编辑:我正在使

浏览 1提问于2012-12-18得票数 12

回答已采纳

1回答

Regex -仅从网页上的urllist中抓取根域

regex

我想要的正则表达式代码只抓取.com域，没有任何子文件夹或.com之后的任何东西。例如:在包含urls列表的网页上，我想抓取和，但不想抓取或

浏览 5提问于2013-01-25得票数 0

4回答

simplexml可以用来浏览html吗？

php、html、parsing、simplexml

我想在不使用正则表达式的情况下从表中抓取数据。我喜欢使用simplexml解析RSS提要，我想知道它是否可以用来从另一个页面抓取表。例如：使用curl或简单的file_get_contents()抓取页面；然后使用simplexml抓取内容？

浏览 0提问于2011-07-09得票数 20

回答已采纳

1回答

preg_replace模式在花括号内，但忽略方括号内的“标志”

php、regex、brackets

我有两个独立的正则表达式来实现这一点，但我需要原始字符串保持不变，所以我需要找到一种方法合并到单个正则表达式中，该正则表达式查找变量，但忽略标志。\s+\}\}~中的抓取变量第一个正则表达式工作，但返回带有标志的变量。

浏览 2提问于2020-07-22得票数 1

回答已采纳

1回答

在Python中提取撇号之间的引号

regex、python-2.7、text、quotes

我正在编写一个正则表达式来捕获带引号的文本。它可以工作，但是作为源文件的纯文本已将单智能引号转换为撇号。.+[\"|\'|\`]")'t know who is human. Don'

浏览 4提问于2018-01-23得票数 0

回答已采纳

1回答

有没有可能在没有标签的情况下清理网页抓取？有没有可能用正则表达式让它变得清晰？

python、python-3.x、html-parsing

data = re.sub('<[^>]*>', '', string=html).lower() 我想抓取随机的页面。但是，因为不可能只抓取想要的内容，所以我提出了一个问题。划痕后使用正则表达式删除html是否有效？

浏览 4提问于2020-05-23得票数 0

2回答

我尝试在同一Pythonic正则表达式中同时获取用户名(如abc123@)和电子邮件(如(abc123@company.com) )。使用的正则表达式：re.match("^([A-Za-z])+([@]){1}$")re.match("^([A-Za-z0-9-_])+(@company.com){1}$") 大多数情况下，发生的情况是用户名被抓取，但电子邮件地址没有被抓取(试图将它们作为两个单独的实体抓取)--你知道发生了什么吗

浏览 0提问于2021-11-30得票数 0

1回答

如何获取标记元素regex的标题类

regex、vb.net

我试图做一个正则表达式，抓住互联网标签元素的标题。尤其是在这个中我做了一个这样的正则表达式：.giornata_1_casa = Val(Regex.Match(Content, "<a href=""(.*)""class=""(.*)"" titl

浏览 2提问于2015-02-05得票数 0

2回答

如何在ubuntu中安装simplehtmldom

php、screen-scraping

我正在试着用php写一个屏幕抓取器。我做了一个噩梦，试图弄清楚如何做正则表达式。然而，我发现了一个库，它被认为可以在屏幕抓取时消除使用正则表达式的需要。它被称为simplehtmldom。

浏览 4提问于2009-07-23得票数 2

5回答

抓取任何以http开头的字符串，直到php中的第一个空格字符

php、regex

我在php中使用preg_replace()抓取一些文本时遇到了问题。我只是尝试删除所有以http|https|www开头的文本，直到第一个空格字符为止。我目前在preg_replace()中使用：(http|https|www)\S+作为我的正则表达式。然而，我在运行代码时得到这个错误: Warning: preg_replace()：Unknown modifier '\‘我可以在文本编辑器中使用相同的正则表达式，例如Sublime text 2，没有问题有没有其他方法可以用正则表达式抓取我

浏览 1提问于2012-04-15得票数 2

回答已采纳

1回答

抓取oddsportal信息

javascript、parsing、python-3.x、beautifulsoup、scrape

我使用的是Python3.5，实际上我关注的是使用BeautifulSoup/lxml/Selenium/PhantomJS进行3.5抓取我只是想用Python代码抓取我需要的所有数据。我可以很容易地用BeautifulSoup从静态HTML中抓取信息。我最近也发现了如何从动态url中获取信息，使用Chrome的网络选项卡，并在XHR选项下查看出现的HTTPrequest。它通常会给我从JS生成的html代码，在这种情况下，我可以继续使用正则表达式，用BS4抓取它。但实际上

浏览 2提问于2016-01-14得票数 1

1回答