要想"知识工作自动化",首先要有"知识".知识从哪里来?...俗话说,"程序员不要生产知识,只做知识的搬运工",而知识最好的搬运工就是爬虫.现在IT公司的逻辑就是"你的知识属于你,我爬下来之后就属于我",诸葛建国他们和各种网站斗智斗勇之后,总算让来自五湖四海的知识汇聚到了自己手中...第一步就是把知识里的招标文件中的预算都提取出来.一开始大家天真的以为撰写招标文件的人都是开源社区的贡献者,招标预算都是明目张胆的显而易见
2.3.1采购预算(第四标包): 415 万元人民币
四、项目预算...(最高限价):100万元人民币
开心的用正则表达式做了几天知识工作自动化之后,发现招标文件的画风开始突变,在画页面过程中大家普遍深恶痛绝的table开始大量出现,比如
万元怎么不跟在数字后面了?...在这里打个广告,长期招收首席数据科学家和群智协同平台储备干部.有兴趣解决这些问题的同志随时和我们联系
后记
目睹了整个事件经过的张先生表示,他再也不想做和爬虫有关的任何工作了,不过他认为,这种信息确实无法用自然语言处理来提取