前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >搜索引擎在新闻信息集成中的作用

搜索引擎在新闻信息集成中的作用

作者头像
罗超频道
发布2018-04-28 11:01:17
1.4K0
发布2018-04-28 11:01:17
举报
文章被收录于专栏:罗超频道罗超频道

随时随地的网络接入、智能廉价的电子设备、巨量增长的移动应用,正在掀起一场移动互联网的革命。在这个全新的数字世界里,信息生产成本降低使之爆炸式增长,媒体介质和技术的发达加速了信息流通,便捷的信息获取手段则激活了人类对信息消费需求。

世界被卷入其中这一波移动浪潮,新闻和搜索引擎也不例外。

新闻的本质归根结底是信息的生产、传播和消费。新闻具备的显著特征将其与普通信息区分开来。正如新闻巨子范长江对新闻的定义:“广大群众欲知应知而未知的重要事实”。这体现了新闻信息应该及时、真实和简洁的特点。这些特点对新闻的生产(采集、加工及多次加工)、传播(分发、集成、管控)和消费(阅读、互动、再传播)等环节提出了新的要求。移动互联网浪潮下,这些环节出现更深刻的变化。

新闻的生产方式愈加多样化。比如众包方式的兴起。人人可以通过博客、微博、社交网络、微信公众账号以及评论创造内容。“自媒体”形态的出现更是将众包模式发挥到极致。对于传统媒体的原始内容,新媒体通过新闻分析、评论、聚合、筛选等方式,将新闻进行再次加工。

新闻的传播路径愈加扁平化。由一对多或者几对多的“点到面”的传播路径,转变为基于社交网络的“点对点”的网状传播路径。这使得新闻从生产到消费的路径海量增长,并且传播时间显著减少。

新闻的消费方式愈加碎片化。报纸杂志电视、互联网新闻媒体算较为集中的消费方式。现在则呈现碎片化的消费方式:传统媒体、综合门户、垂直网站、博客、微博、社交网络、手机APP、微信、手机报、手机电视等多种消费形式。

这些变化对传统新闻媒体带来多重激烈的挑战。例如新闻中心的转移、传播路径的不可控、受众的减少及用户媒体时长的降低。而新闻信息集成或许将削弱这些影响。聚合和筛选海量分离的新闻信息,发挥内容源的优势。其次是实现新闻的集中化管控,进而管控传播路径。最后可以对集成的信息进行深度加工,满足用户正在变化的新闻诉求。

国内外搜索引擎的本质是加速信息的流动,帮助用户简单快速地找到想要的信息。汇集互联网所有信息是各家搜索引擎追求的目标。这些特征使得搜索引擎成为新闻传播的重要载体和关键路径。

搜索引擎的爬虫技术,可以确保新闻采集的完整性和及时性。作为互联网的信息入口,实现了广泛的渗透和用户习惯的培养,进而覆盖大量的受众。而搜索的过滤技术、检索技术、推荐引擎技术则给用户提供了新闻之外的附加价值:客观中立、个性化的内容,简单友好的体验。

那么搜索引擎具体是如何促进新闻信息集成的呢?

一、基于爬虫技术的新闻信息采集成倍提高生产效率

搜索引擎的基础主要是两部分。爬虫子系统和检索子系统。前者负责内容聚合、解析和索引;后者负责处理用户的搜索请求。新闻搜索也是基于这两个模块。搜索的爬虫子系统会定时去采集指定的新闻种子网站,并爬取其最近更新网页,解析后入库。种子网站名单可以自动发现,也可以人工设置。影响内容质量和及时性的因素有几点:

1、新闻源网站选择。权威性强、内容丰富及时的合作网站为搜索引擎贡献了大量及时、重要和热点的新闻内容。(这里最好有数据)。由于不同网站具有不同的权威性、不同的内容质量,搜索引擎针对不同的新闻源网站设置不同的权重,在爬取以及检索过程中,会作为参照因素。例如百度副总裁朱光在百度自媒体平台“百家”启动仪式上便透露可能会对不标注作者的转载网站进行降权处理。

2、爬虫爬取策略。与其他频道不同,新闻搜索必须有极短甚至接近实时的爬虫更新周期。这对爬虫提出了较高的要求。由于需要快速爬取大量的内容,采用大规模的爬虫服务器集群,并采取了多重容灾措施。

3、内容解析手段。新闻内容和评论的渠道非常丰富。不同新闻源、不同页面的格式不一致,因此爬取的网页需要进行清洗和解析才能入库。去除冗余信息、提取新闻内容这一步骤,大部分对搜索引擎友好的网站可以使用标准解析模板进行解析。但是仍然有少部分网站需要开发特殊的解析模板和程序。现在一些新闻搜索在评论、配图爬取上表现仍然不尽如人意。

新闻素材的多样化也对内容解析以及后续的索引有特殊要求。新闻有文字、图片和视频等多种方式。不同的素材需要不同的解析和索引技术。

通过上述手段,可以确保新闻内容的全面、真实和及时。整个爬取过程是机器自动采集,只需少量人力对爬虫服务器的运维和监控。无需人工采编,大幅提高了生产效率。

二、“不搜即索”的新闻搜索对新闻信息进行加工以及再集成

搜索引擎通过高效率的新闻信息采集后,利用搜索引擎的检索、推荐、订阅技术以及用户的搜索习惯,对新闻进行重组后作为一种新闻终端供用户消费。伴随着移动互联网的发展和用户习惯的养成,多渠道包括网站、WAP、APP、PAD,个性化的推荐和订阅以及社会化的新闻互动,是新闻搜索的趋势,也实现了“向下新闻信息集成”的目标。

1、新闻集成信息的呈现门户。

新闻信息是“未知”的,用户对于新闻搜索的需求往往是模糊的。因此与其他搜索频道不同,新闻搜索频道除了提供搜索功能外,还会提供“不搜即索”的被动搜索功能:新闻聚合门户。搜索引擎聚合第三方的新闻内容,除了对新闻真实性和合法性等负责外,不会做其他人工干预,进而保持客观中立。但是搜索引擎会对新闻内容按照热度、重要性、网页质量进行排序和友好的页面呈现。

2、多种新闻传播方式释放已集成新闻的价值。

除了新闻门户的浏览外,主动搜索是新闻搜索的另外一个核心功能。即用户通过输入搜索需求或者点击热门搜索词,搜索相关的新闻结果。这个过程除了满足用户的搜索需求和新闻延展阅读外,也可以加速真实信息的传播,降低信息失真带来的风险。具体来说,例如用户“道听途说”某个模糊消息,如果使用搜索引擎则可以进行“验证”,解决心中的疑惑,接受客观真实的新闻。

在处理用户搜索请求时,首先基于友好的考虑,搜索引擎会对用户的搜索请求进行自然语言理解和分词;然后在已经建好的索引中检索结果,根据新闻热度、质量等排序、去重;进行呈现。

为了便于用户的新闻阅读和满足传播需求,新闻搜索需配备专业的编辑队伍对于热点新闻和传播价值极高的新闻进行精编。这也是主流新闻搜索引擎采用的运营方式。对于集成的新闻信息如何进行二次加工甚至多次加工,挖掘和释放其附加价值。

因此,搜索引擎在信息集成中,扮演一个再次加工的新闻终端角色。其利用搜索技术,满足用户搜索、订阅、发送到手机等需求的同时,实现正向、真实新闻的快速和规模传播。

3、强烈的互动属性实现“向下新闻信息集成”。

搜索引擎除了实现新闻信息集成、满足用户的搜索诉求外,还可以通过互动功能实现“向下的新闻信息集成”。前面提到的对新闻源的爬取可以认为是“向上的新闻信息集成”,或者“后向的新闻信息集成“。

对于新闻受众的互动内容、再传播行为以及新闻诉求的采集和跟踪,我们称之为“向下的新闻信息集成”。当然这个说法可能见仁见智,但业界例如网易,“有态度的新闻”的用户评论也属于广义上的一种新闻。

具体来说,搜索引擎可以在结果详情页提供用户评论。新闻结果和评论则支持社会化账号的分享,进而促进了新闻的二次传播最终实现社会化的裂变式传播。搜索引擎结合用户的属性、标签订阅情况、对新闻结果的搜索和点击情况,分析用户的新闻诉求的特征。并进行个性化的推荐。当用户使用这个产品时间越长,次数越多,他看到的新闻主题将越来越接近自己的预期。这最终将形成“不搜即索”的个性化推荐效果。

以上种种,新闻搜索引擎都将收集到用户的评论、分享以及个性化特征。而这种“向下的新闻信息采集”是传统新闻媒体匮乏的。在社会化传播日趋重要的今天,UGC(用户创造内容)的WEB2.0特征尤显突出,海量爆炸内容的源头正是UGC模式的应用。因此,将每一个“自媒体”,每一条众包新闻信息进行采集既是机会,也是挑战。百度“百家”通过分成方式引入自媒体,以后可以引入更多第三方内容创造“民间高手”。

三、搜索引擎的新闻信息采集现阶段面临的挑战

传统搜索引擎在移动互联网趋势下也面临着技术、商业模式的挑战。例如移动场景下,不方便的文字输入被语音、拍照、位置等搜索方式取代。移动设备的小屏幕则对搜索结果的精准和展示方式提出了要求。用户在移动场景的搜索诉求也不仅仅是网页,更可能是线下实体。传统的关键词、点击和展示广告也遇到瓶颈。因为新闻内容的碎片化、移动场景和设备的特征,新闻搜索同样面临对应的挑战。

挑战一:信息不标准的挑战。

新闻信息采集能利用搜素引擎大幅提高效率,前提是互联网的开放性、W3C等组织制定的HTML标准、搜索引擎行业协议和发展数十年的搜索引擎技术基础。在移动互联网浪潮下,社交网络的内容源趋于封闭、“自媒体”内容存在于不同的APP以及微信号成为“信息孤岛”、移动设备产生的语音、视频等多样化的新闻内容,对新闻信息采集提出挑战。

挑战二:内容实时同步的挑战。

信息真实性的传播要求也对新闻搜索提出挑战。例如新闻源已经将新闻下架,但搜索系统已经爬取内容并建立索引。如果下一次爬取还未开始,则用户将搜索到已下架的内容。为了解决这个问题,新闻搜索除了缩短爬取周期、根据网站的更新频率制定爬取策略外,还具备实时爬取和索引更新技术。可以让搜索在数秒内与内容源的变化同步。

挑战三、解决用户移动新闻搜索的痛点。

用户使用碎片时间的时候阅读新闻的需求强烈,但是却因为网络环境、移动设备等受到限制。这就要求新闻搜索引擎可以将采集到的信息更简单、更友好地呈现给用户。例如“转码技术”,可以将传统网页自动适配成便于各种型号、触屏和键盘手机或平板正常浏览的页面。为了不让网址占据屏幕,“网址压缩技术”,可以将几十个字符的网址压缩到10个字符以内。

挑战四:如何开放新闻信息集采的内容和搜索能力?

由于搜索引擎具备较高的门槛,部分企业不具备实施能力。但是对于新闻信息的深度加工以及传播又具备能力和需求。因此,如何与这部分企业合作,如何将自己的搜索能力开放给他们,形成资源和能力开放平台也是搜索引擎思考的问题。与产业链的合作伙伴共建一个繁荣的生态圈,一起促进数字新闻产业的壮大,为用户带去价值,是新闻搜索引擎的目标。

新闻和搜索引擎都受到移动互联网浪潮的剧烈影响。在这波浪潮下,新闻信息采集需要利用新技术例如搜索引擎提高采集效率、增强呈现、释放价值和向下采集。进而借力这波浪潮实现新闻转型。新闻搜索技术仍需要不断探索,解决信息孤岛、实时同步、移动搜索和能力开放等技术难点。

“媒介是人的延伸”。这是“地球村”概念提出者麦克卢汉对媒介的定义。新闻帮助我们更好地感知这个世界。而搜索引擎则帮助我们更高效率和快速地集成新闻信息,帮助我们更好地感知新闻。

固定广告:SuperSofter是阿超的公众号。是微信第一自媒体联盟WeMedia一员。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2013-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 罗超频道 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档