我试图清理一个字符串,结果如下所示:
从成熟粉煤灰酸性矿山废水中和固体中分离的ltⅠgt芽孢杆菌ltⅠgt sp中抗砷基因的
分析
我正在尝试删除lt,i,gt,因为这些是简化的HTML实体,似乎不会被删除。我可以考虑的这个或其他解决方案的最佳方法是什么?
这是我目前的解决方案:
/**
* @return string
*/
public function getFormattedTitle()
{
$string = preg_replace('/[^A-Za-z0-9\-]/', ' ', filter_var($this->getTitle(), FILTER_SANITIZE_STRING));
return $string;
}
下面是一个示例输入字符串:
Assessing <i>Clivia</i> taxonomy using the core DNA barcode regions, <i>matK</i> and <i>rbcLa</i>
谢谢!
发布于 2018-08-01 04:14:08
输出中的lt
和gt
告诉我,您拥有的字符串实际上更像是:
“使用核心DNA条形码区域、matK和rbcLa评估Clivia分类”
当作为纯文本查看时。
上面显示的字符串是在浏览器中显示的字符串,浏览器会将“<”解释为“<”,将“>”解释为“>”。(这些实体通常称为"HTML实体“,提供了一种编码字符的方法,否则该字符将被解释为HTML。)
一种选择是像这样处理:
$s = "Assessing <i>Clivia</i> taxonomy …";
$s = html_entity_decode($s); // $s is now "Assessing <i>Clivia</i> taxonomy …"
$s = strip_tags($s); // $s is now "Assessing Clivia taxonomy"
但请注意,strip_tags是一个非常幼稚的函数。例如,它会把'1<5和6>2‘变成'12'!因此,您需要确保您的所有输入文本都是双HTML编码的,因为这个示例是为了让它完美地工作。
发布于 2018-08-01 03:48:49
尝试使用strip_tags:http://php.net/manual/en/function.strip-tags.php代替filter_var
<?php
//your input string
$input_string = 'Assessing <i>Clivia</i> taxonomy using the core DNA barcode regions, <i>matK</i> and <i>rbcLa</i>';
//strip away all html tags but leave whats inside
$output_string = strip_tags($input_string);
echo $output_string;
//echos: Assessing Clivia taxonomy using the core DNA barcode regions, matK and rbcLa
?>
发布于 2018-08-01 03:49:46
更好的方法是strip_tags();在这里查看手册:http://php.net/manual/ru/function.strip-tags.php一个示例:
public function getFormattedTitle()
{
return strip_tags($this->getTitle(), '<i>');
}
https://stackoverflow.com/questions/51620965
复制相似问题