我正在尝试从PrestoDB中的引用urls列表中提取域名。使用url_extract_host
函数,我有一个类似下面的列表。我在尝试从字符串中获取域名时卡住了。
Presto使用java样式的模式语法。
下面是一个字符串列表,所有字符串都应该返回google
google.com google.co.il blog.google.com blog.google.co.il
谢谢,谢谢你的帮助。
发布于 2018-05-31 05:55:58
我认为你可以从Mozilla维护的Public Suffix List创建一个正则表达式。
但是表达式的长度将超过100,000个字节--目前有超过8,500个公共后缀,包括相当多的非ascii后缀,可以用UTF-8和punycode进行编码,并且您的表达式可能需要同时支持这两种编码。
https://stackoverflow.com/questions/50612073
复制相似问题