我正在寻找一个解决方案,以剥离一些HTML从抓取的HTML页面。页面中有一些我想要删除的重复数据,所以我尝试使用preg_replace()删除变量数据。
我想要剥离的数据:
Producent:<td class="datatable__body__item" data-title="Producent">Example
Groep:<td class="datatable__body__item" data-title="Produkt groep">Example1
Type:<td class="datatable__body__item" data-title="Produkt type">Example2
....
...
之后一定是这样的:
Producent:Example
Groep:Example1
Type:Example2
因此,除了data-title块中的单词之外,大块是相同的。如何删除这段数据?
我尝试了一些像这样的东西:
$pattern = '/<td class=\"datatable__body__item\"(.*?)>/';
$tech_specs = str_replace($pattern,"", $tech_specs);
但这并不管用。对此有什么解决方案吗?
发布于 2018-08-28 07:25:38
只需使用通配符:
$newstr = preg_replace('/<td class="datatable__body__item" data-title=".*?">/', '', $str);
.*?
的意思是匹配任何东西,但不要贪婪
https://stackoverflow.com/questions/51902407
复制相似问题