目前开发了UDF,通过IP去模糊匹配事实表(ip与省市事实表),SQL查询时候,每一条ip去表中匹配一次。但是很慢,ip与省市事实表
目前是600多万,需要匹配的数据每天大概一千万。假如优化的得当,好的话,以后也会运行600万*10000万的数据。
另一种解决方案,就是使用hive不等值匹配,但是这里hive底层是进行笛卡尔积,600万*1000数据就需要400s左右,不推荐使用。
目前倾向于,优先的能够使用连接去匹配IP数据,当然假如UDF能够满足要求也可以采纳使用。
相似问题