兴趣引擎如何搅局移动互联网?

©原创2015-02-06罗超

人们获取信息经历了几个大的阶段,从门户、搜索引擎再到推荐引擎,虽然载体有所不同,但每一次伴随着搅局者的强势入局,都会有覆盖性的技术创新。

现在移动时代信息大爆炸又对技术提出新的要求。姑且不论视频、直播、音频诸多新形态的多媒体内容,最为基础的资讯内容在自媒体、新媒体大潮中如同泄闸洪水涌向用户。用户不缺内容,缺的是在海量内容中找到想要所需的工具。新闻客户端、搜索引擎、微博、社交网络都在解决这个问题,让人们更高效和精准地获取内容。但最有机会解决资讯大爆炸的,或许是兴趣引擎。

移动内容爆发,信息过载更严重

搜狐2015年开启了转型之路,核心便是改变生产内容的方式,面向顶部和中长尾新闻消费需求生产内容。无独有偶,马化腾2014年在世界互联网大会指出,内容是腾讯未来的重点。还可以看到创新工场等创投机构最近开始向内容倾斜,投资了暴走等内容品牌。

在社交、支付、工具、搜索这些基础设施搭建完成之后,移动互联网未来大部分精力将放在填充内容上,伴随大量的内容提供商出现的必然是内容泛滥。另外PC互联网经过几年大都已经移动化,通过App、微信等方式将内容输送到移动端。这些都会导致移动互联网内容大爆炸。

搜索、推荐无法应对移动资讯大爆炸

可以看看PC端信息大爆炸后的解决方案。

初期,雅虎基于目录索引+人工编辑的检索引擎倒还可以生效;但是在内容达到一个新“奇点”后这个模式就让位给了第二代搜索引擎,Google和百度是其代表,它们基于爬虫索引全网内容,用户的搜索被分词后与索引匹配给出结果。作为入口的搜索引擎一度统治着PC的信息世界。

移动互联网时代,“推荐引擎”开始成长。一方面智能手机随时随地与人处在一起,它收集用户行为数据,更加理解用户,这是推荐基础;另一方面用户在移动设备消费内容时,注意力更分散,需要不断被推荐内容勾回移动资讯里。不过可以看到现在推荐引擎做得远没有搜索引擎成熟,比如你接收到的“推送”都是编辑推荐的千篇一律的热点和娱乐新闻。新闻客户端大都主打“订阅某个媒体或者自媒体账号”,这并非基于兴趣,而是基于信任,我关注了“虎嗅网”是因为我相信它能给我好内容,而不是因为我的兴趣就是“虎嗅网”。

不管哪种方式,我们都会发现信息依然“过载”和“重复”,依然有大量并非在兴趣点的内容出现在视野中。比如百度新闻随时刷新的新闻,我可能只关注科技内容,就算科技频道我也值关注其中某些点比如互联网、硬件、电商等。频道是非常泛的兴趣,人们的兴趣非常多元细化,是海量标签。

兴趣引擎如何解决信息过载问题?

兴趣引擎或许是移动时代信息过载问题的解决之道。在技术上可以理解为它是基于标签的搜索和推荐引擎。内容被机器(或者编辑)贴上各种标签,用户通过订阅行为、阅读行为、互动行为告知机器自己的标签。机器把标签相同的两端连接起来。这些标签就是“兴趣”的技术实现。

兴趣引擎结合了搜索引擎的数据爬取、文本分析等技术优势,结合了推荐引擎利用个人画像推送内容的形式。它满足了用户海量内容能找到、兴趣内容不错过的需求。

兴趣引擎在资讯之外的领域并不陌生。豆瓣基于兴趣把物与人组织起来,大家进入不同小组讨论兴趣,通过兴趣索引电影音乐和书,通过FM获取推荐的音乐;陌陌构建陌陌吧,与百度贴吧相似,都是基于兴趣自发建设的网络小吧。在音乐上也有基于兴趣和情绪发现音乐的App。但是这些应用都只是告诉大家“我们这里有跟你兴趣相投的朋友“,但是并非技术导向的,需要用户自己”来“。而近日跟小米、凤凰达成战略合作的一点资讯,则是在底层技术架构把”搜索引擎“和”推荐引擎“进来有机融合,通过技术和算法精准定位用户兴趣,从而让用户可以基于兴趣接受消息流,他们倡导长尾价值阅读。

与微博等社交网络非常不同。社交网络本质是基于人的联系,亲朋好友与个人关注点很可能不同,朋友圈总会出现毫不感兴趣的鸡汤内容就可以说明这点。兴趣引擎则是完全面向个体用户的内容技术,每个人都看到不一样的内容,只看到自己感兴趣的部分。其他新闻客户端依然是频道思维,面向频道做顶部内容,或者邀请第三方入驻做起PGC,是主编+记者的模式,已很难满足移动用户阅读要求,一点资讯这一基于兴趣的阅读App则让每个人都成为自己的主编,可以决定只呈现用户最感兴趣的内容。未来一点还可基于兴趣所获得的精准细分人去做兴趣导购、兴趣广告、兴趣电商等等。

兴趣引擎最大的门槛是基于兴趣组织内容所需要的技术实力。要对海量内容进行基于兴趣的索引,标签化的过程基于涉及到大量人力物力和计算资源,且内容还在越积越多;要通过兴趣点精准地索引出用户同样是巨大的考验。一点资讯创始人兼CEO郑朝晖曾任前雅虎北京研究院院长,发明的搜索引擎排序算法被广泛应用于雅虎的全球全网搜索及所有垂直搜索的线上产品中;在个性化推荐领域,其团队合著的结合社交图谱和兴趣图谱的个性化推荐算法论文,于2011年获得ACM SIGIR最佳论文奖,当时的团队主要核心成员目前分别担任Twitter和LinkedIn相关领域的核心负责人。

“只给你看你可能感兴趣的”,“技术班底”让“一点”有机会和有实力把兴趣引擎这个事情做成,它只给用户最关注的内容,是解决信息大爆炸问题的方案之一。

“罗超”(luochaotmt)。互联网给了我们自由,这是最好的时代。罗超,是虎嗅网2014年度作者,WeMedia联盟成员,百度百家首批成员。

本文分享自微信公众号 - 罗超频道(luochaotmt)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-02-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Django Scrapy

倒排索引

主楼搜索引擎的主流算法 倒排索引源于实际应用中需要根据属性的值来记录,这种只能怪索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录开...

50560
来自专栏PPV课数据科学社区

八个愚笨的数据迷思:如果你相信了,会被解雇

大数据,小数据,任何数据 过去几个月我花了不少时间和一些高层营销人员交流,他们来自三个洲,有的相当成功,也有的不太得意。我发现后者通常有两个通病: 有些从事数...

37780
来自专栏PPV课数据科学社区

“数学之美”系列九:如何确定网页和查询的相关性

[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个...

32450
来自专栏数据猿

投稿 | 机器如何理解语言—中文分词技术

前言 中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔符不同,中文字符在语义识别时,需要把数个字符组合成词,才能表达出真正的含义...

40940
来自专栏包子铺里聊IT

系统设计系列之自动完成的秘密

文本框自动完成是一项十分常见的功能。从表单的自动填充到搜索引擎的智能提示,这个功能极大地提高了用户的输入效率,也有效地防止了手误的可能。 ? 但是,积极进取的...

30760
来自专栏数据猿

数据猿专访 | 搜狗大数据研究院院长李刚:我们用5.21亿用户证明,什么才是布局大数据的正确姿势!

<数据猿导读> 从搜狗搜索引擎到搜狗输入法,再到搜狗浏览器,搜狗团队创造了一个又一个飞跃。2014年,搜狗又创建了搜狗大数据研究院,由李刚担任院长,深入探索大数...

45680
来自专栏Clive的技术分享

HTTP常见状态码1xx 消息类,服务器临时回应2xx 浏览器请求被处理成功3xx 重定向4xx5xx 服务器错误

HTTP code 1xx 消息类,服务器临时回应 100 Continue 服务器已接收初始请求,浏览器继续发送请求其余部分 101 Switching P...

36250
来自专栏PPV课数据科学社区

"数学之美"系列五——简单之美:布尔代数和搜索引擎的索引

建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Ran...

28630
来自专栏数据猿

大数据揭秘十大趣味城市 广州爱“看片”天津最“寂寞”

<数据猿导读> 近日,360好搜大数据发布了2015年度十大趣味城市排行榜,搜索结果涵盖了吃喝玩乐等方面。其中,北京是中国“最玩命”城市,广州成为全国十大“看片...

31990
来自专栏数据猿

数据猿专访谷歌郭志明:面对广告欺诈,我们的技术绝不手软

数据猿导读 谷歌郭志明称,市场上的广告欺诈流量平均占比已达到80%。面对市场上的广告欺诈行为,谷歌没有坐以待毙,而是采用技术手段监测广告流量,提升广告真实流量的...

43270

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励