搜索引擎在新闻信息集成中的作用

随时随地的网络接入、智能廉价的电子设备、巨量增长的移动应用,正在掀起一场移动互联网的革命。在这个全新的数字世界里,信息生产成本降低使之爆炸式增长,媒体介质和技术的发达加速了信息流通,便捷的信息获取手段则激活了人类对信息消费需求。

世界被卷入其中这一波移动浪潮,新闻和搜索引擎也不例外。

新闻的本质归根结底是信息的生产、传播和消费。新闻具备的显著特征将其与普通信息区分开来。正如新闻巨子范长江对新闻的定义:“广大群众欲知应知而未知的重要事实”。这体现了新闻信息应该及时、真实和简洁的特点。这些特点对新闻的生产(采集、加工及多次加工)、传播(分发、集成、管控)和消费(阅读、互动、再传播)等环节提出了新的要求。移动互联网浪潮下,这些环节出现更深刻的变化。

新闻的生产方式愈加多样化。比如众包方式的兴起。人人可以通过博客、微博、社交网络、微信公众账号以及评论创造内容。“自媒体”形态的出现更是将众包模式发挥到极致。对于传统媒体的原始内容,新媒体通过新闻分析、评论、聚合、筛选等方式,将新闻进行再次加工。

新闻的传播路径愈加扁平化。由一对多或者几对多的“点到面”的传播路径,转变为基于社交网络的“点对点”的网状传播路径。这使得新闻从生产到消费的路径海量增长,并且传播时间显著减少。

新闻的消费方式愈加碎片化。报纸杂志电视、互联网新闻媒体算较为集中的消费方式。现在则呈现碎片化的消费方式:传统媒体、综合门户、垂直网站、博客、微博、社交网络、手机APP、微信、手机报、手机电视等多种消费形式。

这些变化对传统新闻媒体带来多重激烈的挑战。例如新闻中心的转移、传播路径的不可控、受众的减少及用户媒体时长的降低。而新闻信息集成或许将削弱这些影响。聚合和筛选海量分离的新闻信息,发挥内容源的优势。其次是实现新闻的集中化管控,进而管控传播路径。最后可以对集成的信息进行深度加工,满足用户正在变化的新闻诉求。

国内外搜索引擎的本质是加速信息的流动,帮助用户简单快速地找到想要的信息。汇集互联网所有信息是各家搜索引擎追求的目标。这些特征使得搜索引擎成为新闻传播的重要载体和关键路径。

搜索引擎的爬虫技术,可以确保新闻采集的完整性和及时性。作为互联网的信息入口,实现了广泛的渗透和用户习惯的培养,进而覆盖大量的受众。而搜索的过滤技术、检索技术、推荐引擎技术则给用户提供了新闻之外的附加价值:客观中立、个性化的内容,简单友好的体验。

那么搜索引擎具体是如何促进新闻信息集成的呢?

一、基于爬虫技术的新闻信息采集成倍提高生产效率

搜索引擎的基础主要是两部分。爬虫子系统和检索子系统。前者负责内容聚合、解析和索引;后者负责处理用户的搜索请求。新闻搜索也是基于这两个模块。搜索的爬虫子系统会定时去采集指定的新闻种子网站,并爬取其最近更新网页,解析后入库。种子网站名单可以自动发现,也可以人工设置。影响内容质量和及时性的因素有几点:

1、新闻源网站选择。权威性强、内容丰富及时的合作网站为搜索引擎贡献了大量及时、重要和热点的新闻内容。(这里最好有数据)。由于不同网站具有不同的权威性、不同的内容质量,搜索引擎针对不同的新闻源网站设置不同的权重,在爬取以及检索过程中,会作为参照因素。例如百度副总裁朱光在百度自媒体平台“百家”启动仪式上便透露可能会对不标注作者的转载网站进行降权处理。

2、爬虫爬取策略。与其他频道不同,新闻搜索必须有极短甚至接近实时的爬虫更新周期。这对爬虫提出了较高的要求。由于需要快速爬取大量的内容,采用大规模的爬虫服务器集群,并采取了多重容灾措施。

3、内容解析手段。新闻内容和评论的渠道非常丰富。不同新闻源、不同页面的格式不一致,因此爬取的网页需要进行清洗和解析才能入库。去除冗余信息、提取新闻内容这一步骤,大部分对搜索引擎友好的网站可以使用标准解析模板进行解析。但是仍然有少部分网站需要开发特殊的解析模板和程序。现在一些新闻搜索在评论、配图爬取上表现仍然不尽如人意。

新闻素材的多样化也对内容解析以及后续的索引有特殊要求。新闻有文字、图片和视频等多种方式。不同的素材需要不同的解析和索引技术。

通过上述手段,可以确保新闻内容的全面、真实和及时。整个爬取过程是机器自动采集,只需少量人力对爬虫服务器的运维和监控。无需人工采编,大幅提高了生产效率。

二、“不搜即索”的新闻搜索对新闻信息进行加工以及再集成

搜索引擎通过高效率的新闻信息采集后,利用搜索引擎的检索、推荐、订阅技术以及用户的搜索习惯,对新闻进行重组后作为一种新闻终端供用户消费。伴随着移动互联网的发展和用户习惯的养成,多渠道包括网站、WAP、APP、PAD,个性化的推荐和订阅以及社会化的新闻互动,是新闻搜索的趋势,也实现了“向下新闻信息集成”的目标。

1、新闻集成信息的呈现门户。

新闻信息是“未知”的,用户对于新闻搜索的需求往往是模糊的。因此与其他搜索频道不同,新闻搜索频道除了提供搜索功能外,还会提供“不搜即索”的被动搜索功能:新闻聚合门户。搜索引擎聚合第三方的新闻内容,除了对新闻真实性和合法性等负责外,不会做其他人工干预,进而保持客观中立。但是搜索引擎会对新闻内容按照热度、重要性、网页质量进行排序和友好的页面呈现。

2、多种新闻传播方式释放已集成新闻的价值。

除了新闻门户的浏览外,主动搜索是新闻搜索的另外一个核心功能。即用户通过输入搜索需求或者点击热门搜索词,搜索相关的新闻结果。这个过程除了满足用户的搜索需求和新闻延展阅读外,也可以加速真实信息的传播,降低信息失真带来的风险。具体来说,例如用户“道听途说”某个模糊消息,如果使用搜索引擎则可以进行“验证”,解决心中的疑惑,接受客观真实的新闻。

在处理用户搜索请求时,首先基于友好的考虑,搜索引擎会对用户的搜索请求进行自然语言理解和分词;然后在已经建好的索引中检索结果,根据新闻热度、质量等排序、去重;进行呈现。

为了便于用户的新闻阅读和满足传播需求,新闻搜索需配备专业的编辑队伍对于热点新闻和传播价值极高的新闻进行精编。这也是主流新闻搜索引擎采用的运营方式。对于集成的新闻信息如何进行二次加工甚至多次加工,挖掘和释放其附加价值。

因此,搜索引擎在信息集成中,扮演一个再次加工的新闻终端角色。其利用搜索技术,满足用户搜索、订阅、发送到手机等需求的同时,实现正向、真实新闻的快速和规模传播。

3、强烈的互动属性实现“向下新闻信息集成”。

搜索引擎除了实现新闻信息集成、满足用户的搜索诉求外,还可以通过互动功能实现“向下的新闻信息集成”。前面提到的对新闻源的爬取可以认为是“向上的新闻信息集成”,或者“后向的新闻信息集成“。

对于新闻受众的互动内容、再传播行为以及新闻诉求的采集和跟踪,我们称之为“向下的新闻信息集成”。当然这个说法可能见仁见智,但业界例如网易,“有态度的新闻”的用户评论也属于广义上的一种新闻。

具体来说,搜索引擎可以在结果详情页提供用户评论。新闻结果和评论则支持社会化账号的分享,进而促进了新闻的二次传播最终实现社会化的裂变式传播。搜索引擎结合用户的属性、标签订阅情况、对新闻结果的搜索和点击情况,分析用户的新闻诉求的特征。并进行个性化的推荐。当用户使用这个产品时间越长,次数越多,他看到的新闻主题将越来越接近自己的预期。这最终将形成“不搜即索”的个性化推荐效果。

以上种种,新闻搜索引擎都将收集到用户的评论、分享以及个性化特征。而这种“向下的新闻信息采集”是传统新闻媒体匮乏的。在社会化传播日趋重要的今天,UGC(用户创造内容)的WEB2.0特征尤显突出,海量爆炸内容的源头正是UGC模式的应用。因此,将每一个“自媒体”,每一条众包新闻信息进行采集既是机会,也是挑战。百度“百家”通过分成方式引入自媒体,以后可以引入更多第三方内容创造“民间高手”。

三、搜索引擎的新闻信息采集现阶段面临的挑战

传统搜索引擎在移动互联网趋势下也面临着技术、商业模式的挑战。例如移动场景下,不方便的文字输入被语音、拍照、位置等搜索方式取代。移动设备的小屏幕则对搜索结果的精准和展示方式提出了要求。用户在移动场景的搜索诉求也不仅仅是网页,更可能是线下实体。传统的关键词、点击和展示广告也遇到瓶颈。因为新闻内容的碎片化、移动场景和设备的特征,新闻搜索同样面临对应的挑战。

挑战一:信息不标准的挑战。

新闻信息采集能利用搜素引擎大幅提高效率,前提是互联网的开放性、W3C等组织制定的HTML标准、搜索引擎行业协议和发展数十年的搜索引擎技术基础。在移动互联网浪潮下,社交网络的内容源趋于封闭、“自媒体”内容存在于不同的APP以及微信号成为“信息孤岛”、移动设备产生的语音、视频等多样化的新闻内容,对新闻信息采集提出挑战。

挑战二:内容实时同步的挑战。

信息真实性的传播要求也对新闻搜索提出挑战。例如新闻源已经将新闻下架,但搜索系统已经爬取内容并建立索引。如果下一次爬取还未开始,则用户将搜索到已下架的内容。为了解决这个问题,新闻搜索除了缩短爬取周期、根据网站的更新频率制定爬取策略外,还具备实时爬取和索引更新技术。可以让搜索在数秒内与内容源的变化同步。

挑战三、解决用户移动新闻搜索的痛点。

用户使用碎片时间的时候阅读新闻的需求强烈,但是却因为网络环境、移动设备等受到限制。这就要求新闻搜索引擎可以将采集到的信息更简单、更友好地呈现给用户。例如“转码技术”,可以将传统网页自动适配成便于各种型号、触屏和键盘手机或平板正常浏览的页面。为了不让网址占据屏幕,“网址压缩技术”,可以将几十个字符的网址压缩到10个字符以内。

挑战四:如何开放新闻信息集采的内容和搜索能力?

由于搜索引擎具备较高的门槛,部分企业不具备实施能力。但是对于新闻信息的深度加工以及传播又具备能力和需求。因此,如何与这部分企业合作,如何将自己的搜索能力开放给他们,形成资源和能力开放平台也是搜索引擎思考的问题。与产业链的合作伙伴共建一个繁荣的生态圈,一起促进数字新闻产业的壮大,为用户带去价值,是新闻搜索引擎的目标。

新闻和搜索引擎都受到移动互联网浪潮的剧烈影响。在这波浪潮下,新闻信息采集需要利用新技术例如搜索引擎提高采集效率、增强呈现、释放价值和向下采集。进而借力这波浪潮实现新闻转型。新闻搜索技术仍需要不断探索,解决信息孤岛、实时同步、移动搜索和能力开放等技术难点。

“媒介是人的延伸”。这是“地球村”概念提出者麦克卢汉对媒介的定义。新闻帮助我们更好地感知这个世界。而搜索引擎则帮助我们更高效率和快速地集成新闻信息,帮助我们更好地感知新闻。

固定广告:SuperSofter是阿超的公众号。是微信第一自媒体联盟WeMedia一员。

本文分享自微信公众号 - 罗超频道(luochaotmt)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2013-12-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【算法】相似度计算方法原理及实现

小编邀请您,先思考: 1 相似度如何计算? 2 相似度有什么应用? 温馨提示:加入圈子或者商务合作,请加微信:luqin360 在数据分析和数据挖掘以及搜索引擎...

41860
来自专栏PPV课数据科学社区

【学习】Think SAS(二)

第一篇“Think Sas”中的“Think”,纯粹做“考虑”解,说,诸君如果为工作计,不妨考虑下SAS。下面说些关于SAS本身的一些思考与认识...

40480
来自专栏PPV课数据科学社区

【技术】Hadoop选择:可供参考的几大因素

Apache Hadoop的发展已经经历了很长一段时间,也经历也一段从初生到成熟之旅,在Apache Hadoop的起步阶段,主要支持类似搜索引擎的...

28340
来自专栏数据猿

大数据揭秘十大趣味城市 广州爱“看片”天津最“寂寞”

<数据猿导读> 近日,360好搜大数据发布了2015年度十大趣味城市排行榜,搜索结果涵盖了吃喝玩乐等方面。其中,北京是中国“最玩命”城市,广州成为全国十大“看片...

31990
来自专栏PPV课数据科学社区

大数据分析错误认识那么多 舍恩伯格你知道吗

随着大数据时代的到来,很多人对大数据产生了浓厚的兴趣,然而,大数据只是一个新概念,很多认识都是不正确的。 大数据产生的背景是整个社会走向数字化,...

32240
来自专栏PPV课数据科学社区

无处不在的数据“脚印” 大数据时代何处安放我们的“小世界”?

“大部分数据都是人们‘主动’贡献出来的。”东软集团董事长兼CEO刘积仁在近日海南博鳌2014年年会举行的大数据与云计算分论坛上说。“事实上大家每一个动...

31940
来自专栏包子铺里聊IT

系统设计系列之自动完成的秘密

文本框自动完成是一项十分常见的功能。从表单的自动填充到搜索引擎的智能提示,这个功能极大地提高了用户的输入效率,也有效地防止了手误的可能。 ? 但是,积极进取的...

30760
来自专栏PPV课数据科学社区

无处不在的数据“脚印” 大数据时代何处安放我们的“小世界”?

? 大部分数据都是人们‘主动’贡献出来的。”东软集团董事长兼CEO刘积仁在近日海南博鳌2014年年会举行的大数据与云计算分论坛上说。“事实上大家每一个动作,都...

37250
来自专栏PPV课数据科学社区

倒卖用户信息背后的隐秘产业链:做电商就是做数据!

? 支付宝爆发了数据泄露丑闻,超过20g的支付数据资料被支付宝前员工从系统中窃取出去,并出售给第三方,后被媒体曝光。 “支付宝内鬼盗卖用户信息被抓凡客被指是...

47950
来自专栏数据猿

投稿 | 机器如何理解语言—中文分词技术

前言 中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔符不同,中文字符在语义识别时,需要把数个字符组合成词,才能表达出真正的含义...

40940

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励