专栏首页钱塘大数据钱塘干货 | 数据收集和处理工具一览

钱塘干货 | 数据收集和处理工具一览

进入大数据时代,调查报道愈加成为信息战。从哪里收集有效数据?如何抽取、筛选、整合、分类大量琐碎的信息?如何分享、存储数据,并实现随取随用?钱塘君整理了一张数据收集和处理工具清单,分为八大类,方便实用,各有所长,供大家选择。

1.全文本搜索和挖掘的搜索引擎:

包括:搜索方法、技术:全文本搜索,信息检索,桌面搜索,企业搜索和分面搜索

开源搜索工具:

  • Open Semantic Search:专门用于搜索自己文件的搜索引擎,同样的还有Open Semantic Desktop Search:可用于搜索单一一台笔记本电脑或单一用户的文件资源。
  • InvestigateIX: 用于搜索加密外部设备
  • Recoll: 适用于Linux系统的桌面搜索引擎
  • Fuzzy search with lists:清单搜索、模糊搜索

搜素数据库和API

  • 如果你想编程,你可以试用以下强大的搜索引擎:Solr和Elastic Search,支持索引和API搜索,更多全文搜索、实时检索、数据分析、多格式数据读取(JSON, SML, CSV或HTTP)等强大功能等你开发。

2.数据库、数字文档、数据管理系统、文件管理系统和内容管理系统:

  • 还在为不同格式的脚注、尾注、文中引用和文献参考大费脑筋吗?资源整理神器Zotero的标注和引用功能帮你解决难题。它可以在Word,Open Office添加引用,在Google doc和电子邮件中插入文献参考,或者为数据库添加标记。
  • LibreOffice Calc:开源表格程序
  • Document cloud:文档管理系统,管理纸质文件扫描版本或者PDF 格式文件
  • Semantic MediaWiki: MediaWiki(著名开源引擎,可用于构建企业/个人知识库,维基百科就是使用MediaWiki的成功范例)的免费开源扩展,可供用户存储、调用数据
  • Drupal CMS:内容管理模块,可以让你快速便捷地以用户界面创制自己的内容格式、数据字段和表格
  • 想从大量文件中单独抽取金额来分析?专业的文件管理系统Agorum可以自动从账单抽取金钱数额,帮你轻松解决。
  • 想标记图片中的文字?Pundit帮你办到,它同时支持文本和图片标记。
  • 想在网站加注释?Annotator.js帮你在任何网页加注释,而且可以添加评论、标签、链接、用户或者更多不同种类的信息,第三方插件还能帮你在难以搞定的PDF、EPUB、视频、图片、声音甚至更多格式的文件上添加标注。
  • 标注了信息,想收到更新提醒?Hypothesis可供用户订阅一系列已标注的活动信息,而且能按照自己的兴趣获取通知,而且还能分享评注、链接词典。程序员还可以获取有限的网站许可,通过第三方应用创建、更新、删除、搜索注释。

3. 文本文件挖掘、分析

  • Text mining tutorial: How to analyze large document collections:文本挖掘教程:如何分析大容量文件集(使用Open Semantic Search来挖掘文本)
  • Understanding language data: 理解语言数据:可以使用开源NLP(自然语言处理)软件
  • 统计词频有困难?Overview project可以显示文本最常用的词和它们的词群分布
  • 想以图解的方式查看文本检索结果?文本搜索工具Jigsaw:(非开源软件,但可免费下载)可统计文本中最重要的人物、地点、组织等实体的出现频率,并将他们之间的关系以列表、图表、时间表和关系图的形式呈现出来,提高文本分析效率。

如果你觉得不够,我们还推荐:

  • Wikipedia list of open source text mining software:维基百科上整合的开源文本挖掘软件列表
  • Tapor: 研究专用的文本分析门户,提供大量文本分析工具,你可以按照类型或标记找到最适合的一款。

4. 图表和关系网络分析(SNA)

帮助分析关联并将其可视化的工具:

  • 关系网分析教程:教你如何用Open Semantic Search可视化关联
  • Gephi:桌面工具,协助数据分析,可将图表和关系网可视化,可最多包含5万个关系点,用户可自主筛选呈现的点。
  • Cytoscape.js: Javascript数据库,能将关系网、事物分属和图表可视化
  • Semantic Mediawiki:上面介绍过,不仅是数据库,也是适用于关联数据、非常灵活的内容管理系统
  • Detective: 以Python/Django和neo4j图像数据库为基础的内容管理系统,适用于分析关系。

5. 抽取、转换数据

包括数据整合、抽取、转换、转移、ETL(数据提取、转换和加载)网络爬虫采集等等

从文件抽取结构化数据:

  • Tika content analysis toolkit: 从文档和文件抽取文本和元数据
  • CSV Manager:将csv表格输入Solr为基础的搜索引擎
  • 想从PDF文件抽取数据、转化为可编辑的文本?免费软件Tabula可以直接从PDF文件抽取数据表格,神奇吧?
  • 图片识别和文本扫描:光学字符识别(OCR)

从图片识别文本(OCR)

  • Tesseract: 光学识别软件,从图片识别文本
  • 低质量扫描没法看?Scantailor帮你分页、矫正文本、添加/删除页边,可以将原始文本传换成PDF或者DJVU格式的文件,便于打印。

从声音识别、抽取文本:

  • CMU Sphinx: 开源声音识别工具,支持英语、法语、中文、德语、荷兰语、俄语。该开发商还提供关键词识别和读音识别等实用工具,可以多多关注。

从网站抽取数据(网络信息采集/网络爬虫)

  • 网络采集哪家强?简易 Scrapy帮你忙:你可以依托Scrapy建立自己的网络爬虫工具,编写Python代码,在Windows,Mac,Linux和BSD系统上都可运行。

6. 输入、修改、转换数据

  • 将数据转换成纯文本的超强工具: Tika content analysis toolkit
  • 将数据转换成其他格式的工具:Talend Open Studio和Kettle

编写文件和删除元数据

记者为了保护信息,往往需要编写文件、清除敏感文件、删除隐藏在文件或图片里的元数据,例如软件的序列号或软件、用户名,以下工具可供参考:

  • PDF Redact Tools: 以最安全的方式删除PDF中的元数据
  • MAT: Metadata Anonymisation Toolkit:从不同的文件格式和图片格式中删除元数据

7. 统计与分析

包括数据分析、统计、图表、数据可视化

  • 开源表格程序LibreOffice Calc
  • 上面介绍过的HUE Solr search和Kibana for Elastic Search,除了能检索数据库和API,也能完成数据分析
  • 适用于数据分析和计量经济分析的专业电脑程序:Statistical software
  • 统计和分析的工具大全:Business Intelligence
  • 用R 、 Python或其他编程语言编程分析数据
  • 以上数据分析太复杂?刚入门,想理解数据分析原理?推荐阅读解释数据挖掘方法的书Mining of massive datasets

8. 通用开源软件工具包

最强大的通用开源工具包,例如 Debian GNU/Linux或Ubuntu Linux,涵盖了成千上万个免费软件和开源工具、软件数据库和编程语言。

运行时,用户无需移除现有的操作系统:安装适用于Windows和Mac的Virtual Box,你就可以在现有操作环境下的单独的窗口运行上述Linux软件。

本文分享自微信公众号 - 钱塘大数据(qtbigdata)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-07-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【干货】解读《大数据产业发展规划(2016-2020年)》

    导读:推动大数据产业持续健康发展,是党中央、国务院作出的重大战略部署,是实施国家大数据战略、实现我国从数据大国向数据强国转变的重要举措。日前,工业和信息化部正式...

    钱塘数据
  • 【干货】华为九大热门开源项目,你了解多少?

    世界 500 强的华为,旗下设有华为开源软件能力中心。是基于华为开源战略新成立的部门。承担开源新技术扫描与规划、开源技术研究、开源开发方法探索、开源社区运营和开...

    钱塘数据
  • 大数据时代,每家公司都要有大数据部门吗?

    文 | 桑文锋 很多大数据创业公司提供的服务,似乎企业自己也能实现,那何不干脆自己做?结论也不能下得太武断。 如果这个问题换做是:在电气时代,每家公司都要有个...

    钱塘数据
  • 送票|首届开源马拉松、2018 OpenInfra Days China盛典!

    开源是我们的生活方式,开放是我们的人生态度,没有人是一座孤岛,创新、融合、共赢是我们的目标。

    养码场
  • 首次!腾讯全面公开整体开源路线图

    在开源的道路上,腾讯不仅将内部优质项目持续对外开放,还积极与国际开源社区协同合作,发挥中国企业的科技力量,推动开源和开放进一步升级。 6月25日,由Cloud...

    腾讯开源
  • 解决使用SecureCRT出现的Generic clipboard failure错误

    我使用securecrt连接hp-ux进行操作,使用的版本是securecrt 6.6 64bit。

    williamwong
  • 如何使用PS简单抠图

    简单并不简单
  • TODO指南:参与开源社区

    不仅仅在技术领域,在各个行业,开源已经成为开发软件的实际途径。随着公司使用开源代码来开发自己的商业产品和服务,他们也看到了开源贡献回馈给开源项目的策略价值。

    CNCF
  • 开源软件的商业模式演变分析(三)

    前面两篇谈完了开源软件的发展背景,以及这几年会蓬勃发展的原因,接着来谈究竟开源软件的商业模式如何发展。

    用户5997198
  • 开源正在蚕食整个世界?

    “如果这个理论推开来,软件吞没世界,那么开源软件将取代之,对吗?”2015年初福布斯还不确定地刺探。 但到年底他们就非常自信地发文“开源软件确实正在吞没整个世界...

    哲洛不闹

扫码关注云+社区

领取腾讯云代金券