前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >教你如何获取IP地址侦测用户来源可视化分析

教你如何获取IP地址侦测用户来源可视化分析

作者头像
IT阅读排行榜
发布2018-08-15 16:56:51
1.9K0
发布2018-08-15 16:56:51
举报
文章被收录于专栏:华章科技华章科技
文章来源:沈浩老师(ID:artofdata),作者:沈浩。

假设一家商业网站开发了软件产品,他们希望知道都是来自哪里的用户下载或更新我们的软件,并进行可视化分析。

需要解决的问题是:

  1. 是否有一个IP地址库,能够表征一个geoIP地址的具体位置(至少到国家或具有服务器ISP位置)
  2. Weblog记录了用户下载或更新软件的IP地址
  3. 能够将下载用户的IP地址匹配到geoIP地址数据库
  4. 在地图上可视化呈现用户来源

下面我们通过案例来说明实现上述想法的软件操作和挖掘算法。

首先我们了解到有一家网站提供了IP地址的开源数据库(收费数据库更精细和更新更快) Http://www.maxmind.com

GeoIP2 Precision Insights服务提供IP地址所在地点Maxmind所掌握的最准确信息,可以将其精确定位到邮政编码层面。它包括地理定位数据的置信因数,描述ISP/机构,并显示某个IP背后的用户类型。

GeoIP2 Precision Insights 现在可以提供人均收入(美元)以及每平方公里的人口数量(仅限美国)。借助平均收入,精调广告定向和优惠券发放;加入人口密度数据,作为渠道分析和评估市场需求的一项因素。

从上面描述我们可以看到几点应用:

  1. 一个IP地址库具有什么信息
  2. 一个IP地址的可信度或安全性如何评估
  3. 一个IP地址的来源访问如何侦测和风险是电子商务或在线支付的验证手段
  4. 可以通过GeoIP的API接口通过Python进行访问验证和其他应用REST

另:该网站提供了一个免费的GeoIP数据库

下面我们通过编辑一个SQLite的下载路径文件

通过执行这个流可以在分钟级别下载到200万的geoIP数据库(可以永久保存在本地)

我们可以将GeoIP数据库保持下来,以后就不用每次运行再下载了,当然这个库如果付费的话每天都在更新,也就可以保证实时运行最新数据库了。

从数据库中我们可以看到有ip_start和ip_end数据值区间范围内的分配ip数量和这个范围ip地址所属国家、地区、城市,以及ISP的经纬度坐标。

接下来我们假设该某家网站Apache的weblog能够记录下载和更新软件的用户浏览log数据(假设有1万个请求weblog)

我们先用正则表达或Like匹配抽取或者过滤所以的下载download或更新updata的用户请求地址Url

$Request$ LIKE "GET /knime_downloads/*" => TRUE

$Request$ LIKE "GET /update/*/org.knime.features.base_*" => TRUE

接下来需要将IP地址的四位地址段整合为一个整数值,以便实现IP地址的匹配。

首先将IP地址的四分地址段拆分成四列字段,然后在合并成IP对于数据戳。在运算前需要进行IP地址的汇总,因为可能有多个访问来自同一个IP地址。

IP值=($IP_Arr[0]$ * 16777216) + ($IP_Arr[1]$ * 65536) + ($IP_Arr[2]$ * 256) + $IP_Arr[3]$

下面进行字段匹配,也就是需要将IP-number与IP_start和IP_end进行匹配,由此获得每个IP地址的所属位置(国家、经纬度坐标)

这里通过标注行ID,利用Binner模块进行RowID进行匹配

匹配结果如下:

匹配完成后就是基本统计和地图可视化了。

通过统计IP地址数量,排序、下载量大小的size、颜色、形状等特征后可以采用地理信息可视化方法,这里用了OSM(open street map)

这样我们就可以知道下载或更新我们软件的用户都来自哪个国家地区城市和数量。

接下来主要是可视化技术了,我们可以用更丰富的地理信息可视化进行展现或实时分析。

后续,我们可以通过Python进行实时分析和流分析纳入用户分析系统。

作者:沈浩,中国传媒大学新闻学院教授、博士生导师,中国传媒大学调查统计研究所所长,大数据挖掘与社会计算实验室主任,中国市场研究行业协会会长。

END

投稿和反馈请发邮件至holly0801@163.com,谢谢!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-11-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档