首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微博的搜索利器堪称数据宝藏,再也不用担心找不到信息了

微博的搜索利器堪称数据宝藏,再也不用担心找不到信息了

欢迎大家收看婷婷游世界,我是本文章的小编婷婷,今天给大家带来的是科技小文章,希望你们喜欢。研究人员需要通过自动化程度更高的途径完成搜索工作。因此,科学家研发出一种智能程度更高的语言处理器,它能帮助科学家从数百万条信息中识别出有用信息。自从2006年Twitter面世以来,研究人员就一直在研究它,以期更深入地了解人类社会。总的来说,它提供了一个巨型数据库,囊括了人们的所做、所想、所感。

但是,科学家手头现有的研究工具却很不完美。例如它的关键词搜索功能,虽能返回很多结果,却无法给出明确的总体趋势。当美国科罗拉多大学博尔德分校的计算机科学家詹姆斯·马丁在Twitter上搜索关于2010年海地地震的相关内容时,他找到了1,400万条相关信息。“你总不可能让研究生们把它们挨个读个遍吧,”他说。研究人员需要找到自动化程度更高的途径来完成这项工作。

一个很有前景的方法是,研发一种能够对Twitter上的词类进行标记的程序,然后利用这些标签来确定每条Twitter的内容是关于什么的。这种被称为“自然语言处理”的方法并不是什么新主意,但在社交短信上的应用却刚刚兴起。“它现在拥有广阔的应用领域,”马丁说。对此,施乐公司帕罗奥图研究中心的科学家研发出了一种这样的程序,它利用的是名为“分析器”的语言处理器,通常用于测试新发表的文章。“分析器”能够区分词语和标点,标记词类和分析句子的语法结构。

但是,“它们在微博上的应用效果不佳,”帕罗奥图研究中心的研究员凯尔·登特说。他和同事编写了数百条规则,来辨识Twitter上的“#”标签、重复字母和其他一些或许在《华尔街日报》上看不到的那些语言特征。2011年8月8日,他们在美国人工智能促进协会会议上展示了这项研究。登特和同事还想利用他们的程序来区分反问句和疑问句。利用该程序,商家可以及时了解人们对产品的问题反馈。在进行的一项测试中,他们的程序准确识别出了2,304条微博中68%的内容。

“对于这样一个全新领域,首次尝试就取得这样的成绩已经很不错了,”美国空间和海上作战司令部的杰弗里·埃伦评论道,他效力的单位主要为美国海军提供情报技术。虽然微博搜寻技术还未成熟到可以投入应用,但作为一个领域。“它很快就会发展到那个程度,”马丁说。一旦该技术成熟,研究人员就如同拥有了一座前所未有的、关于人类行为的数据宝藏。“小道八卦”被记录下来,还可以随时查询,这是有史以来的第一次。埃伦说:”一百年前,我们根本无法知道所有人的想法。“

此篇文章为婷婷游世界原创文章,目前只在百度平台独家发布,如有转载请注明出处,谢谢!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181114A0GC9D00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券