有包含http和https的文本。我试过这个是为了..。它只适用于http。
url_regex <-“http[^(:空白:\\”|<|&|#\n\r)]+“
当我像下面这样试着的时候,它不起作用了。
url_regex <-“(http=https)[^(:空白:AC.26\”|<|&|#\n\r)]+“
要获得以http或https开头的urls,我应该在哪里修改?
附注:-我试过使用regex,它适用于其他语言。R使用regex的版本是什么?
发布于 2016-09-07 09:37:48
问题在于,在正则表达式中间的引号关闭了开头的引号。这两个regex都应该在开始和结束时用单个标记来定义,它可以工作,并允许在regex中使用引号:
url_regex <- '(http|https)[^([:blank:]|\\"|<|&|#\n\r)]+'发布于 2017-01-18 18:13:47
看看这个帖子。它使用rex包创建正则表达式,如果需要考虑其他扩展,则可以轻松修改该正则表达式。有据可查。
https://stackoverflow.com/questions/38811481
复制相似问题