首页
学习
活动
专区
工具
TVP
发布

PPV课数据科学社区

专栏作者
2119
文章
2430350
阅读量
187
订阅数
爬虫需谨慎!!!那些你不知道的爬虫反爬虫套路
作者简介 崔广宇,携程酒店研发部开发经理,与去哪儿艺龙的反爬虫同事是好基友。携程技术中心“非著名”段子手。 本文来自携程技术中心(ID:ctriptech) 前言 爬虫与反爬虫,是一个很不阳光的行业。 这里说的不阳光,有两个含义。 第一是,这个行业是隐藏在地下的,一般很少被曝光出来。很多公司对外都不会宣称自己有爬虫团队,甚至隐瞒自己有反爬虫团队的事实。这可能是出于公司战略角度来看的,与技术无关。 第二是,这个行业并不是一个很积极向上的行业。很多人在这个行业摸爬滚打了多年,积攒了大量的经验,但是悲哀的发现
小莹莹
2018-04-24
1.4K0
多模型融合推荐算法——从原理到实践
1 研发背景 互联网时代也是信息爆炸的时代,内容太多,而用户的时间太少,如何选择成了难题。电商平台里的商品、媒体网站里的新闻、小说网站里的作品、招聘网站里的职位……当数量超过用户可以遍历的上限时,用户就无所适从了。 对海量信息进行筛选、过滤,将用户最关注最感兴趣的信息展现在用户面前,能大大增加这些内容的转化率,对各类应用系统都有非常巨大的价值。 搜索引擎的出现在一定程度上解决了信息筛选问题,但还远远不够,其存在的两个主要弊端是:第一搜索引擎需要用户主动提供关键词来对海量信息进行筛选。当用户无法准确描述自己的
小莹莹
2018-04-24
2.5K0
大数据与私生活
  电影Ex Machina中基于搜索引擎提供数据的仿生脑   我的智能手环用了将近一年,今天它上面唯一的一颗小按钮突然脱落,掉进地毯缝里再也找不到了。一年以前,我在我妈的怂恿下买了这个看起来没什么用处的“智能可穿戴”初代产品,它仅能计步以及通过监测身体的运动状况来计算出睡眠质量。我妈几十年来饱受失眠之苦,我不太理解为什么她热衷于让一个完全无助于睡眠的电子小玩意儿告诉她昨晚又没有睡好。不过,我还是给自己买了一个手环,而且出乎意料地戴了一年。买到手,在手机上装好App,很快我就体会到“量化自我”的乐趣。首
小莹莹
2018-04-23
5480
【方法】电商数据分析方法:分拆,跟着用户走
在理解了要选择怎样的指标来衡量各项业务之后,我们可以对业务有一个客观和全面的把握,可是数字本身无法告诉我们发生了什么事情,怎样可以改进。为了得到更深入的信息,我们需要用到很多的分析工具,这里我们只介绍最常用和基础的分析方法:拆分。 1 看数据分布 最简单的拆分方法就是不看平均值,看数据分布。因为凡是“总和”或者“平均”类的统计数据都会丢失掉很多重要的信息。例如李嘉诚来我们公司参观,这一时间我们公司办公室里的“平均资产”就会因为李嘉诚一个人 被抬高到人均几亿身家。如果有人根据这个“平均资产”数据来判定说我们办
小莹莹
2018-04-23
9330
【了解】推荐系统的坑
不知不觉,从事推荐系统相关工作已近两年,这两年自己踩坑,看人踩坑已然不少。记得一位资深从业者说“现在看起来,推荐系统就是个坑啊!”,心有戚戚的同时又不禁思索,到底坑在哪? 第一坑:高估系统对用户需求的捕捉能力; 我们都说,搜索引擎是满足用户主动需求的产品,而推荐系统则是满足用户隐含需求的产品。当用户明确需要什么信息,就把需求转化为检索词,丢到搜索引擎,搜索引擎帮用户找到它,而推荐系统则能良好的感知用户未明确陈述的需求,为其呈现信息。那么问题来了,既然推荐系统能够捕捉用户的需求,也就是说用
小莹莹
2018-04-23
6420
【学习】推荐算法实践
前言 推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。 随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。 解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短的词或者短语的组合(即query),然后将这些词或短语组合提交到相应的搜索引擎,再由搜索引擎在海量的信息库中检索出与query
小莹莹
2018-04-23
7000
八个愚笨的数据迷思:如果你相信了,会被解雇
大数据,小数据,任何数据 过去几个月我花了不少时间和一些高层营销人员交流,他们来自三个洲,有的相当成功,也有的不太得意。我发现后者通常有两个通病: 有些从事数位工作的人完全不在工作上使用数据。他们理应立即被解雇,我甚至不想与他们聊天。(温馨提示:2013年了,如果你花不足三成时间处理数据,那么你便称不上专业、成功的「市场先生/小姐」) 很多人会运用数据,但不幸地用错了愚笨的策略及指标。 当然,他们不会自觉愚笨。可是,如果把他们沉迷的策略及指标说清楚,他们失败的原因便显易而见了。 首先,让我们定义甚么是愚笨
小莹莹
2018-04-20
8060
“数学之美”系列九:如何确定网页和查询的相关性
[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。] 我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子
小莹莹
2018-04-20
8350
"数学之美"系列五——简单之美:布尔代数和搜索引擎的索引
建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。 世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化,其实从根本上讲都没有逃出布尔运算的框框。 布尔(GeorgeBoole) 是十九世纪英国
小莹莹
2018-04-20
8440
【观视界】浅谈知识图谱
数字化协会理事顾问 广州佰聆数据顾问有限公司解决方案经理 大家好,我是中国数字化协会的理事顾问,郑午。今天与大家浅谈一下-知识图谱。 知识图谱最早是谷歌在2012年推出的一个知识库,谷歌用这个知识库支持它新一代的搜索引擎。简单来说,知识图谱是由一些相互连接的实体,和它们的属性共同构成的。其中每一条知识都可以表示为一个SPO三元组,SPO是英文(Subject, Predicate, Object)的首字母缩写,翻译成中文可以理解为:(实体一,谓词,实体二)。这个谓词定义了实体一与实
小莹莹
2018-04-20
3.9K0
【资讯】什么撑起下一代互联网?智能推荐
智能推荐引擎的基本逻辑是什么?热门、兴趣、地域、探索四大策略逻辑,预测群体的行为。 智能推荐爆红于资讯产业是因为啥?海量信息带动海量反馈数据推导出精准算法。 智能推荐会干掉媒体人么?永远不会,但鸿沟已定,玩法必改。 智能推荐的未来是什么?除了以社交为衍生的信息入口外,以获取资讯为目的的第二个信息入口。 前几天,我和老蔡做了一番极度严肃与技术型的对话,被360度全面科普了一番。 老蔡是谁?蔡明军,技术极客一枚。 工程师出身,搞过航天921项目、开发过大型网站、参与过搜狗搜索引擎的设计研发、做过在线教育,十
小莹莹
2018-04-19
6680
大数据分析错误认识那么多 舍恩伯格你知道吗
随着大数据时代的到来,很多人对大数据产生了浓厚的兴趣,然而,大数据只是一个新概念,很多认识都是不正确的。 大数据产生的背景是整个社会走向数字化,特别是社交网络和各种传感设备的发展。大数据分析拥有自身的特点,与计量经济学既有区别又有联系。当前对大数据的分析存在许多流行观点,但其中很多核心观点都值得商榷。 大数据产生的背景是整个社会走向数字化,特别是社交网络和各种传感设备的发展。云计算和搜索引擎的发展,使得对大数据的高效分析成为可能,核心问题是如何在种类繁多、数量庞大的数据中快速获取有价
小莹莹
2018-04-18
6210
【技术】Hadoop选择:可供参考的几大因素
Apache Hadoop的发展已经经历了很长一段时间,也经历也一段从初生到成熟之旅,在Apache Hadoop的起步阶段,主要支持类似搜索引擎的功能。如今,Hadoop已经被数十个行业采用,它们依靠大数据计算来提升业务处理性能。政府、制造业、医疗保健、零售业和其他部门越来越多的从经济发展和Hadoop计算能力中受益,然而受到传统企业解决方案限制的公司将会发现竞争变得越来越残酷。 选择一个合适的Hadoop发行版和在业务中应用Hadoop一样有必要。最终,你会发现选择哪种Hadoop发
小莹莹
2018-04-18
6520
无处不在的数据“脚印” 大数据时代何处安放我们的“小世界”?
“大部分数据都是人们‘主动’贡献出来的。”东软集团董事长兼CEO刘积仁在近日海南博鳌2014年年会举行的大数据与云计算分论坛上说。“事实上大家每一个动作,都不知道背后有多少‘诱惑’使你自愿贡献数据。你
小莹莹
2018-04-18
6770
倒卖用户信息背后的隐秘产业链:做电商就是做数据!
支付宝爆发了数据泄露丑闻,超过20g的支付数据资料被支付宝前员工从系统中窃取出去,并出售给第三方,后被媒体曝光。 “支付宝内鬼盗卖用户信息被抓凡客被指是最大买家”相关事件的前后动态: 1,据报道,阿
小莹莹
2018-04-18
1.5K0
无处不在的数据“脚印” 大数据时代何处安放我们的“小世界”?
大部分数据都是人们‘主动’贡献出来的。”东软集团董事长兼CEO刘积仁在近日海南博鳌2014年年会举行的大数据与云计算分论坛上说。“事实上大家每一个动作,都不知道背后有多少‘诱惑’使你自愿贡献数据。你的
小莹莹
2018-04-18
7840
【学习】Think SAS(二)
第一篇“Think Sas”中的“Think”,纯粹做“考虑”解,说,诸君如果为工作计,不妨考虑下SAS。下面说些关于SAS本身的一些思考与认识。俗话说,人类一思考,上帝就拍砖。上一篇是纯劝导型,这一篇就是求拍砖型。 0.总结与回应 在展开讨论之前,希望大伙对“事实问题”而不是“价值问题”能有一个统一的认识,这也是我对上篇各位的评论的一个总结与回应。 0.1 功能:SAS 与R 一些朋友询问SAS或R或其他软件功能的优劣,然后决定自己应该着手学哪个。这是一个
小莹莹
2018-04-18
1.3K0
【学习】通过简单的Excel分析网站日志数据
昨天在一个QQ交流群里看到有一个新手发问,如何去简单的分析网站日志,清楚知道网站的一个数据抓取情况,哪些目录抓取较好,有哪些IP段蜘蛛抓取等。 一个网站要发展的更快,走的更远,它离不开日常的一个数据分析,就如携程旅行网页搜索营销部孙波在《首届百度站长交流会》上所言,其利用数据模型对频道改版后,网页索引量从原来的十几万,上升到今年的500多万的索引量。由此可见,数据分析的重要性。 说到每日的网站日志分析,在这里强调下,我需要用到两个工具:Excel和光年日志分析工具。可能也
小莹莹
2018-04-18
2K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档