别听iCourt的大数据课了,听我的

全文共1127字,阅读大约需要3分钟。

在旷真产品经理蔡俊看来,目前法律行业能快速通过数据帮助律师验证想法的数据集几乎没有。基于此,他整理了一个通过爬虫从网上自动获取需要信息的方法,在此分享给大家。

蔡俊

旷真产品经理

试听了一下iCourt大数据课,发现里面说的几乎不是大数据,如果这样都可以,那么接下来我告诉大家一个更好的方法。

01

一个观点

首先要说明一个观点:

1、数据的获取一定是全网的,从单一的搜索引擎或网站去寻找数据,是片面的;

2、既然数据来自全网,那么数据的去噪是必须的,也必须是自动化的,那些人为去筛选数据的方法,基本可以淘汰了;

3、数据的更新是即时的,网上一旦有信息更新,数据立刻update,而不是靠人去看有没有更新;

4、数据的范式是根据自己需求自定义自动化的,而不是把网上的信息手动复制粘贴到自己的范式文件里。

基于以上这些,我们要做的,就是去设计一个爬虫。

02

人人都可用的爬虫

所谓爬虫,就是按照你的要求,去自动获取网上你需要的信息,然后再按照你设定的范式输出出来。

早几年爬虫是需要靠编程语言开发的,但是,随着互联网信息越来越开放,傻瓜式的爬虫也出现了。

离我们最近的爬虫软件你猜是什么——是Excel。

Excel可以导入来自网站的数据(至少2013版以上的都可以),你可以先建立一个网站请求sheet,把你要爬的网站罗列出来,然后请求这个网站的指定页面进行数据下载,下载到另一个sheet里。

据说2016版本的更强大,网上有很多类似的教程,大家可以参考。

第二个方案是用爬虫工具,我以前写过一个简单的:

大家可以使用,只不过需要翻墙。地址:http://d.shop123.io

国内有一款傻瓜爬虫做得很强大,叫八爪鱼:

很傻瓜易用。

03

思路分析

我说一个我做舆情分析的思路,感觉跟法律的尽职调查思路是一致的:

1、先确定信息的关键词和向量关系,也就是说,框定一个采集数据的范围。

有些人会指定网站,以此来框定这个范围,例如会指定一些法律相关的网站,这样保证采集到的信息和法律相关,或者指定采集淘宝,这样数据就是商品信息。如果你事先并不知道什么网站能框定这个范围,那么就要全网采集了,我一般的做法就是选定几个关键词,然后将百度权重排名前1000的网站作为采集来源,但这样采集还是太粗糙,这个时候就要定义一个向量关系,也就是说,将几个关键词作为识别特征,然后词频在一个范围内,以保证采集的信息精度满足需求。

2、然后就是创建一个爬虫,让它爬一个通宵。

对了,请确保电脑硬盘空间足够。

3、将爬了一个通宵的csv文件导入到Excel中,做模拟分析

当然,这个步骤其实也是可有可无,如果你的数据还没有形成范式,则必不可少。如果范式足够,那么这一步是可以省略的。我看了一些资信信息类的网站,范式都很好,这一步可以不必做。

4、此时,你将得到一组可以用于分析的数据了。

你可以做图表、写分析报告……做你想做的任何事。

数据检索只是律师必备的能力之一,如果你认为自己还具备更多出众的能力,欢迎加入旷真!年薪12W,我们只要你的能力!

微信名:旷真MIC

微信ID:kuangzhenMIC

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20181218G1H45X00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券