1.全文本搜索和挖掘的搜索引擎:
包括:搜索方法、技术:全文本搜索,信息检索,桌面搜索,企业搜索和分面搜索
开源搜索工具:
搜素数据库和API
2.数据库、数字文档、数据管理系统、文件管理系统和内容管理系统:
3. 文本文件挖掘、分析
如果你觉得不够,我们还推荐:
4. 图表和关系网络分析(SNA)
帮助分析关联并将其可视化的工具:
5. 抽取、转换数据
包括数据整合、抽取、转换、转移、ETL(数据提取、转换和加载)网络爬虫采集等等
从文件抽取结构化数据:
从图片识别文本(OCR)
从声音识别、抽取文本:
从网站抽取数据(网络信息采集/网络爬虫)
6. 输入、修改、转换数据
编写文件和删除元数据
记者为了保护信息,往往需要编写文件、清除敏感文件、删除隐藏在文件或图片里的元数据,例如软件的序列号或软件、用户名,以下工具可供参考:
7. 统计与分析
包括数据分析、统计、图表、数据可视化
8. 通用开源软件工具包
最强大的通用开源工具包,例如 Debian GNU/Linux或Ubuntu Linux,涵盖了成千上万个免费软件和开源工具、软件数据库和编程语言。
运行时,用户无需移除现有的操作系统:安装适用于Windows和Mac的Virtual Box,你就可以在现有操作环境下的单独的窗口运行上述Linux软件。