学习
实践
活动
专区
工具
TVP
写文章

日志数据分析关乎企业风险管控

欢迎各位再次来到这里听小编解说!小编已经把最精彩的文章已经写在了下边,希望大家能耐心的把文章看完。你们的阅读就是我坚持创作的动力!麻烦你点点关注和评论!小编会永远记在心里的!!!

近日,一篇《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城》的自媒体文章,引起业界高度关注。文章直指“马蜂窝”数据造假,称马蜂窝从其他平台抄袭搬运的点评,占马蜂窝官网总点评数的85%。作为一家风头正盛的旅游网站,马蜂窝对此表示不服,把当事方(深圳市乎睿数据有限公司及自媒体文章作者丁子荃)告上了法庭。

真相到底是什么,局外人可能没办法准确判断。但是,从技术角度来看,这次“马蜂窝被捅”事件反应出几个值得争议的热点。

第一,对于“爬虫工具”的使用问题。 随着大数据的兴起,有越来越多的企业和个人意识到结构化、非结构化数据的重要性。如何采集及整理这些数据,进一步挖掘商业价值?于是,爬虫软件工具开始盛行。我们随便一搜,什么八爪鱼、集搜客、熊猫采集等等,一抓一大把。这些工具软件的卖点是简单、易用,即使是不懂代码的业务人员,也能使用。但是,这些软件是否能随便在市面上售卖?如果可以买卖,是不是要约束下对方的使用范围?深圳市乎睿数据有限公司,这次捅“马蜂窝”的工具,也是借助“机器人”来完成。

第二、随便爬对方的数据,是否构成侵权 。很多互联网公司创业,基本没有自己的数据,只好从其他平台,甚至是竞争对手的平台“爬数据”,这已成行业潜规则。这样的“潜规则”,是否合法?

第三、作为受害方,我们如何通过日志数据分析控制未知风险。 不管怎么说,“数据造假”给“马蜂窝”带来了大量的负面效果。多年积累起来的用户形象,毁于一旦。如果说,马蜂窝确有其实,那就需要从道德和法律层面综合考量。如果这次事件是有人故意找茬,我们要思考如何通过技术手段保护自己。爬虫、撞库、黑客攻击……作为互联网人,这些技术我们早已耳熟能详。但是,如果被别有用心的人利用,后果不堪想象。

什么是爬虫?爬虫本身就是网络机器人,是一种能够自动在Web上根据某种策略进行远程数据搜索与获取的程序,也被称为网络蜘蛛或网络爬虫。百度、谷歌等搜索引擎,都是借助这一技术进行信息搜集。但是,不友好的自动访问会带来许多问题,除了涉及商业机密,还会占据平台带宽,影响正常用户的访问。

所以,对于管理人员来说,有必要建立一个已知网络机器人的数据库。数据库字段包括网络机器人的标识agent和网络机器人所在的服务器IP地址,然后通过检测访问者的IP地址来进行识别。对于未知的网络机器人,虽然我们的监测能力有限,但是可以从日志中挖掘出每天Web端的访问情况,建立有效的风险模型,就有可能识别出可疑IP。如果日志记录中发现异常IP,完全可以通过技术手段屏蔽掉。Web日志包含的信息量虽然不多,但是从日志字段值中可以发现异常用户操作行为。

所以,基于大数据的日志数据分析变得越来越重要,它不只满足动态安全管理需要,也是运维人员进行风险管控的有力抓手。

欢迎大家与我一起来探索科技!让我们走在科技的最前沿。小编已经把最精彩的内容写在下边,请您耐心的把文章阅读完可以吗?您的阅读就是我坚持创作的动力!此外,满足小编一个小小的请求好吗?帮忙点点关注,阅读完文章别忘了留下您宝贵的意见!好吧,我们现在开始一起探索吧!

非常感谢各位看官能在百忙之中阅读小编的文章,您们的阅读和评论是小编继续坚持创作的动力。你们的每一个评论,小编都会去非常认真的去阅读,你们提出的宝贵意见我也会虚心接受,争取每天都为大家带来更多的优质文章。让大家不但可以增长见识,还可以有个好的心情。希望您能喜欢小编的文章!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181029A1A7Y700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券