戴森一文检索与分析过程详解

Limit在写戴森一文的时候《

十年来最佳救火队员——戴森

》,其实出发点就是,想看看国内近十年年哪个公司请求无效数量最多?然后分析一下无效成功率多少?都去无效哪些人了?这些被无效的案子情况怎么样?都涉及哪些领域?好啦,有了这些需求之后,就开始动手吧。

1、信息检索

目前,Limit接触过能免费检索无效信息的,有两个途径:1)sooip数据库;2)复审委。可能也还有其他可以进行这样检索的数据库,但是需要付费账号,Limit买不起啊,有想让Limit体验的,欢迎数据库联系我

言归正传,我们先来看看复审委的检索。在复审官方网站上的最左侧,有检索的入口,如下:

点击去一看,傻眼了...系统只支持精准检索,无法选择近十年,放弃了...

那么就进入下一个环节了,使用sooip检索。点击最左侧的复审无效检索,如下:

点击检索之后,终于可以看到近十年哪个公司提出无效请求最多了:

Ok,第一个问题成功解决了!

另外,最后部分问题也解决了,那就是涉及的领域、同时还有发明类型及占比。

但是,Limit还想看看地域分布呢?还想看看被无效的个人和公司占比呢?

Sooip支持不住了,怎么办?Limit想,如果还要在sooip上解决上述问题,就要把数据导出来,再批量检一下,用分析模块来做一下。

说干就干。于是找啊找啊,发现居然这个功能界面没有下载功能!OMG!

怎么办?Limit正愁眉苦脸的时候,突然灵光一现:记得收藏里可以下载,于是先把所有案件都收藏了,然后下载,哈哈,天才!

果真,可以下载,结果打开一看,傻眼了..全是空白!!!

诶,怎么办呢?几个方法:

1.直接一个一个复制出来!(要死啊)

2.想办法

3.再想办法

2、数据处理

好了,有了解决方案,开干!第一个,直接放弃。执行第二个,想办法。

要不先整个页面复制出来试试?

大体是这样的,天哪,好愁啊,这个还是和单条复制一个样子啊。怎么办?

Excel是一个很牛逼的工具,我们一起来尝试:

经过观察,Limit发现每隔八行,出现一次申请号,于是,要用到Excel的函数了。

在新的一列里输入函数如下:

=OFFSET($A$2,(ROW(A1)-1)*8,COLUMN(A1)-1)

哈哈!一下子申请号都出来了。

于是,一页一页的,复制粘贴,20页..(为什么不点击sooip右下角的每页显示50条,这样不是更快吗?你看到了,Limit也想到了,但是必须吐槽的是,这个功能,也失效了!!!

为了不造成错位混乱,Limit复制粘贴进了20多个sheet,然后,要合并这些号,怎么办?继续Excel函数:

=INDIRECT("sheet1!B1:B10")

完成后,替换掉没用的“申请号:”,这个就不用教了吧,大功告成!

看着这些脱光了的只剩下的申请号数据,真舒服

有人问了,这个还是好麻烦啊!有没有更加简单的方法?

上面说了,除了想办法,还有再想办法啊。但是要借助工具了,patentics,浓重登场!

怎么玩?很简单,步骤如下:复制页面-在客户端选择导入-完事!复制20几次页面,全部就导进去了!艾玛!太爽了!

一个字,牛逼!

3、图表绘制

好了,开始搞后面所有的信息:

怎么看多少个人申请被无效?多少公司被无效?(有系统在左侧筛选直接有统计,这里不展开)

Patentics有个好办法:

哈哈,三个字以上的都是公司(没错吧!)。Ok,又完成一个分析。

剩下两个,也简单了,按照地域分组:

按照申请日分组:

都齐活了!

然后,可以直接用patentics出图,不喜欢系统出图的,还可以导出数据,在Excel里绘制图形,这个就不展开了,大家都会。

终于,全部处理完毕,分析也就结束了。

当然了,这些个申请号导出来了,还可以用其他的商业数据库进行批量导入分析,Limit也尝试了用JoveEye、sooip完成后续的分析,步骤也是差不多的。

你们觉得搞这样一个分析要花很多时间吧?确实,搞完还要发出来文章的确费时不少,但是Limit仍然在完全不影响工作的情况下,很好的完成了文章输出,大家想知道怎么做到的吗?下一期发文告诉大家一个非常非常好的方法!

--End--

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181204G1EOYZ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励