我正在写一个小脚本的废电话号码从网页。此页面有不同格式的电话号码,如下所示
-PH:(07) 46 3000 66, BUSINESS HOURS, 9-5 MON-FRI, 9-12 SAT-SUN.
-Please phone 54974211 or 0411053074 both between 10 am – 8 pm or
-or Phone 07 5497 1000 if you get
-Email or ph 0755431528.
-Phone 0414 791 796
-Or ph 0418117617
我使用了一些regx模式,比如
preg_match_all('/([\w+\.]*\w+@[\w+\.]*\w+[\w+\-\w+]*\.\w+)/is',$pagecontents,$results);
var_dump($results);
但我不知道怎么才能得到这么多的电话号码。任何人都可以帮助我使用preg_match或任何其他PHP方式从页面中获取各种电话号码。谢谢
发布于 2013-10-12 13:26:13
根据我从网站清理数据的经验,除非你会写所有可能的折算,否则不可能把所有电话号码(免费文本)都拿走。
使用您的文本示例,尝试如下
preg_match_all('/(ph:|ph |phone)([\(\)\d or\-]+?)([^\(\)\d or\-]|$)/is',$pagecontents,$results);
var_dump($results[2]);
发布于 2013-10-12 13:21:27
尝试使用这一个:\(?\d+\)?(\s*\d+){3}
。
发布于 2013-10-12 13:24:35
您可以尝试使用此模式,演示:
$pattern = '~(?>(\()?0\d(?(1)\))\s?+)?+\d\d\s?+(?>\d{3}\s?\d{3}|(?:\d\d\s??){3})~';
$subject = <<<'LOD'
-PH:(07) 46 3000 66, BUSINESS HOURS, 9-5 MON-FRI, 9-12 SAT-SUN.
-Please phone 54974211 or 0411053074 both between 10 am – 8 pm or
-or Phone 07 5497 1000 if you get
-Email or ph 0755431528.
-Phone 0414 791 796
-Or ph 0418117617
LOD;
preg_match_all($pattern, $subject, $matches);
print_r($matches);
https://stackoverflow.com/questions/19334566
复制相似问题