专栏首页数据分析1480教你如何高效地实现信息搜索

教你如何高效地实现信息搜索

信息搜索是利用“互联网大脑”来学习的必备技能。

本文主要内容如下:

  1. 搜什么,即搜索的主题确认(clarify the target);
  2. 在哪搜,选择合适的资源库(match the source);
  3. 选信息,使用筛选规则和排序规则挑选有效信息(pick valuable info)。

1 搜什么

1.1 分解目标

搜索是为了解决一个问题,但解决问题可能不是通过一次提问就能搞定的,搜索也是如此,可能需要进行一系列搜索才能发现答案。

e.g. 2012年考研复试的时候,我想知道复试面试大概会考察哪些内容,提出的问题如下

  • 谁会提前知道面试的内容?保研的同学大概率是知道的,保研的人会提前批,也会提前面试
  • 到哪里找保研的同学信息呢?学院网站应该有公布
  • 怎么联系上这些人?人人网啊(那会人人网还没有倒闭)

就一样一步步顺藤摸瓜找到了保研学生的姓名以及先前的学校、院系,然后就根据这些信息到人人网搜索。 注:可能会有重名的情况,不过加上好友可以向对方确认是否是保研到XX学校的即可。

盲目地“直接搜”索很可能徒劳无功,对要所搜的问题要细化拆分成分步骤的小问题可能更加高效,尤其是要搜索的目标是一个复杂或者不清晰的问题时。

1.2 精确描述

精确描述你要搜索的问题,不管你提问的对象是人还是“互联网大脑”,提问的技巧也是快速获得信息的关键点之一。

这里非常推荐一篇文章:提问的智慧

https://github.com/ruby-china/How-To-Ask-Questions-The-Smart-Way/blob/master/README-zh_CN.md

不管你是否关注技术,这篇文章都有参考价值,一个聪明的提问可能就意味着发现一个机会。

提问的时候应该像回答医生的问题那样:当前症状有哪些,症状持续几天了,发病前有没有哪些疑似致病因素,以前有没有类似的情况等等。

精确描述问题时,需要注意:

  • 说清问题的场景信息,在什么场景下遇到什么问题,以及期望得到什么样的结果,e.g. 在win7 32位系统上安装xx软件,报了xx错误;
  • 专业术语要用对,英文要全拼而不是用缩写。e.g. 刚入职那会,别人提到ROI这个词,我脑袋中闪现的第一个单词是 Regin of Interest(感兴趣区域,认知神经科学研究中的一个术语),后来慢慢的ROI这个词的在工作中的场景才切换到Return on Investment(投资回报率),如果你要查关于“投资回报率”的英文资料,那就需要用全拼写,说不定还有其他缩写是ROI但含义大相径庭的名词;
  • 小心限定词带来有偏结果,这就像你看评论的时候只筛选“差评”一样,如果你要获得全面的无偏信息,那就要注意限定词,比如评价好坏的词语,相对较好的方式可以参考知乎体“如何评价xxx”;

1.3 用对关键词

给本文找封面图的时候,发现图片关联了一篇新闻,新闻摘要截图如下:

新闻来源:http://www.sohu.com/a/260267997_118792

我一看,这产品不错啊,想找官网看看,使用关键字“Journal”先百度一下,预料中地呵呵了,然后用Bing国际版搜索发现也不行,这个单词太宽泛了(搜出来全是各类期刊),然后开始扩展关键字来缩小搜索范围(后面都是用Bing搜索):

  • "social capital",这个是投资公司的名字,国外应该也有报导吧,报导的时候可能会提到官网;
  • "search engine", 这个产品本质还是搜索引擎,加上这个关键字应该可以;

不过,即使加了上面两个关键字还是“然并卵”。

继续回来读新浪新闻的报道,发现文章有提到CEO的名字(Samiur Rahman),太好了,名字的特异性非常强,于是重新用“Journal Samiur Rahman”关键字搜索,找到了这位CEO的Linkedin信息,上面正好有公司的信息——UseJournal,再搜索该产品名称,这个产品的官网终于出现了。

CEO大哥的Linkedin简介

上面这个例子说明,关键词的特异性很重要,特异性强的关键词直接可以过滤掉大部分的无用信息。

当然,有时候关键字不是这么好找的。

e.g. 面试中遇到一个问题,我把这个问题抽象为“对一群对象的多个维度评估,并计算综合得分,以此得分来评价这群对象中每个个体的好坏”,比如网易云音乐推出的”音乐人指数“。

注1:音乐人指数可参见:https://music.163.com/nmusician/web/faq/level#/

注2:刚开始考虑信用评分卡属于这类”评分“方法,不过后面想来综合评分的场景是没有标签的,不像信用评估要区分好和坏的标签,也就是说评分卡技术是”有监督方法“,综合评分更类似于”无监督方法“

我想搜索的信息是,这种计算综合评分的方法论是什么?

第一次搜索关键字:“多维度 综合评分”,无果;

第二次关键字扩展:“多维度 综合评分 方法”,浏览结果发现一条重要信息

截图来自百度搜索结果

文章点进去发现,果然和我想要的内容有关,这个时候的关键字可以调整为“模糊综合评价法”,然后分词拆解,“模糊”是修饰词,有可能意味着“模糊综合评价法”只是”综合评价法“的一种。然后用百度搜索“综合评价法”这个关键字,果然找到了相关信息。一般方法论都有著作论述,然后就在当当网上用”综合评价法“搜下看有没有相关的书,还真有,查看书的目录,再次验证这类方法名称就叫“综合评价方法”,模糊综合评价只是其中一种方法。

注:想深入了解”综合评价方法“,可以参考以下书籍:

  • 综合评价基础方法及应用,张发明,科学出版社
  • 现代综合评价方法与案例精选,杜栋 等,清华大学出版社
  • 层次分析法及其应用案例,张炳江,电子工业出版社

”动态调整关键词“时,除了从已知信息和搜索结果中提取扩展信息外,还需要注意”备选关键词“,常用的方法:

  • 横向拓展,e.g. 同义词转换、中英互译等;
  • 纵向拓展,向上找群体特征(更抽象),e.g. 各种指数的本质是多维度综合评分;向下找具体案例或者细分领域,e.g. 综合评分不同方法的案例。

2 在哪搜

2.1 匹配合适的资源库

最常见的搜索引擎是百度、Google、Bing这3家,这些属于”全网”搜索引擎(常见的问题基本都能搜到)。垂直搜索引擎也很常用,比如电商网站里面搜索商品、搜狗微信搜索等、网盘资源搜索等。

如果把搜索引擎比作管道,那么管道对接的就是“资源池”。

这里不谈搜索引擎这个管道,而是谈资源池,要根据搜索的信息来选择合适的资源池。这个有点类似“精准营销”,在“目标信息”高度集中的地方搜索,才能省时省力,事半功倍。

e.g. 我想看某个关于数据分析专题的文章,那么我会到两个地方搜,一个是微信公众号,另一个就是知乎,因为从我的经验来看这两个地方的文章质量整体都还可以(或者说找到好文章的概率更大)。

e.g. 如果我想看一本英文书有没有中文版,就用英文书名在亚马逊上搜索即可,如果有中文译本,那么搜索结果也会一并列举。

e.g. 如果发现某个作者的作品很好,想看作者的其他作品,怎么办?如果这个作者是中国人,那么直接用百度百科、豆瓣读书搜索作者名即可;如果是外国人,那么找到作者的英文姓名,然后用找到这个作者的Wikipedia词条,一般都有Bibliography记录的。

2.2 建立自己的资源库

简单理解,建立资源库就是搜集资源网站和文章。在头脑中建立索引——”要找XX信息可以去XX网站“。

因为个人的专业、职业、兴趣爱好不一样,资源库的建立要看自己的具体需要。

以下列举个人常用的资源库,仅供参考:

  • 找轮子:GitHub,oschina
  • 找教程:runoob,tutorialspoint,wikihow,知乎
  • 找电子书:libgen,鸠摩,书格(古籍)
  • 看书评:豆瓣,当当,微信读书
  • 找租房:58同城、咸鱼、微博、公司论坛(对,你没看错,咸鱼和微博上也是可以找租房信息的)
  • 找图片:Unsplash,Pexels,Hippopox
  • 找菜谱:王刚视频,香哈菜谱

如果你要找书单或者其他清单、资源网站等,网上一搜一大把,要试用并挑选适合自己的,如果是专业性强的资源,还可以找同行、同事交流推荐。

看评价的时候要记得“仅供参考”原则,不要被他人的评价误导,适合别人的不一定适合你,反过来不适合别人的可能恰恰适合你。

这里还要提一下”关联推荐“:

e.g. 看读者评论时发现推荐了另一本很好的书,看书的时候作者引用了很好的一篇文献等;

e.g. 在当当、京东、亚马逊搜索图书的时候会在搜索结果或者商品详情页”推荐“书,这些书也可能有用;

e.g. 搜索到一篇很好的文章,顺便可以浏览下该网站的其他文章,如果文章质量都很好,那么该网站可以纳入资源库(该方法同样可以用于筛选微信公众号)。

注:如果初涉某个领域,最好读一下综述性的文章或者教材,综述资料通常都会覆盖该领域的主要论题或者方法、流派等,同时还会给到文献指引,从这个意义上讲某个领域的综述文章也属于”资源库“。

有时候你可能只是对某一篇文章感兴趣,而不是整个网站,那么就需要收藏文章,可以使用在线笔记软件来管理收藏的文章(这样便于检索),此外,还要避免“只收藏不阅读”的习惯,定期阅读收藏的文章,然后进行笔记整合或者分类保存。

3 选信息

不是所有搜索的结果都是你要的,铺天盖地的广告、制造“怪力乱神”的无良媒体等,总会遇到一些乱七八糟的东西想来骗取你的注意、浪费你的时间。

选择信息时需要有两个规则:

  • 筛选规则,也就是那些东西要剔除、哪些东西要留下,选出和你搜索的主题相关的内容;
  • 排序规则,信息质量参差不齐,要选择那些价值高的文章。

3.1 筛选规则

分成两部分,第一部分涉及到搜索引擎的技巧,使用得当的技巧,搜索引擎能“自动”过滤一部分不相关的信息。

e.g. 以前在天猫上搜东西,总是会出现很多韩版的款式(但是我很不喜欢”韩版“这个标签),然后搜索的时候可以这样“男 短袖 T恤 - 韩版”,这里的“-”号就是“剔除的”

更多搜索引擎使用技巧可以参考如下文章:

  • https://jingyan.baidu.com/article/925f8cb8c78839c0dde056a8.html
  • https://www.zhihu.com/question/28013848

但是,有时候我们对要搜索的对象没法做到精确描述(你都不知道那是啥),甚至不知道搜索对应的资源池(比如我找“综合评价方法”的那个案例),那就需要你来“手动”筛选了,挨个点开那些疑似目标的文章链接,看看是不是你要的东西,一般浏览搜索结果的前两页就行,手动排查一遍还没有要找的东西,那就需要调整搜索的关键词了。

不管是“自动”还是“手动”,以下都是可以参考的“剔除”规则:

  • 搜索结果中带有“广告”标签,参考百度搜索
  • 主题和搜索目标无关的,e.g. 你想要找馒头的做法,却出现了馒头机的介绍
  • 点链接进去,发现广告满天飞的
  • 标题情绪色彩非常重的,e.g. 震惊体文章
  • 信息源不靠谱的,e.g. 早先已经上过当,干脆拉进黑名单
  • 更多可以参考如何识别虚假信息

3.2 排序规则

排序规则有点类似上文提到的“综合评价方法”了,要从多个维度考察文章的质量。排序规则就是对文章的质量进行排序,文章的质量主要考察3个维度:

  • 关联度,即和搜索的目标是否高度相关,“离题太远”的就不要看了;
  • 可信度,信息可不可靠,是否是一手信息,发布者的专业度、权威性,文章的目的、数据、逻辑、推论等是否可靠;
  • 完整度,就是信息的广度和深度,有的是浅尝辄止,甚至只是写了个开头,然后就开始卖广告……

也可以通过外部评价信息来判断文章的好坏,比如文章的阅读数、转发量、点赞量等。不过这些“仅供参考”,还是要看自己的具体需求。

最后,用思维导图总结下全文。

每天进步一点点:数据分析1480

长按扫码关注我

本文分享自微信公众号 - 数据分析1480(lsxxx2011)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【干货】统计学最常用的「数据分析方法」清单(上)

    描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分...

    1480
  • 报表开发的三个重要思路(指标篇)

    前文报表开发准确应该说是“报表开发的流程”,即报表开发的需求处理流程,本文关注点在于设计报表时需要关注的指标体系。

    1480
  • 超全干货 | 整理了一套常用的数据分析方法汇总!

    描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析、离中趋势分...

    1480
  • 如何将ST05生成的trace导入HANA Studio里并以图形化方式显示出来

    有的朋友可能在ST05里看到这个按钮但是不知道如何使用。

    Jerry Wang
  • 力扣96——不同的二叉搜索树

    原题url:https://leetcode-cn.com/problems/unique-binary-search-trees/

    健程之道
  • Mycat 分布式事务的实现

    随着并发量、数据量越来越大及业务已经细化到不能再按照业务划分,我们不得不使用分布式数据库提高系统的性能。在分布式系统中,各个节点在物理上都是相对独立的,每个节点...

    博文视点Broadview
  • 一个SAP开发人员的2018年终总结

    Jerry惊恐地发现,随着年龄的增长,时光流逝的速度仿佛有加快的趋势。因此,年终的记录显得更为重要。把自己一年做的无论工作还是生活上的事情梳理一遍,若干年后来回...

    Jerry Wang
  • 搜索市场少了云云,多了微博,变数更大

    有媒体近日报道了云云被新浪收购的消息:传闻中创始人刘骏已到百度任职,其他创始成员已纷纷套现离开。此前,云云融资后已经有过第一波创始成员离职。在豪华的Go...

    罗超频道
  • Document flow API in SAP CRM and C4C

    以一个具体的例子来说明。在Appointment的Overview page上能看见一个名叫Reference的区域,这里可以维护一些其他的业务文档的ID,这样...

    Jerry Wang
  • python无框架开发网站

    标题很有噱头,其实就是python的一个库的使用。之前记得有个网友问我说想学习python开发网站,但是不想用框架,我当时建议可以去学下cgi方面的东西。现在想...

    the5fire

扫码关注云+社区

领取腾讯云代金券