首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从哪里开始建立简单的数据库来简化社区组织的分析?

从哪里开始建立简单的数据库来简化社区组织的分析?
EN

Software Recommendation用户
提问于 2015-09-02 09:00:21
回答 4查看 95关注 0票数 3

我在印度的一个研究机构工作,最近参加了一个在贫困农村社区开展免疫接种的项目。他们是一个相当大的组织,但实际上没有任何IT基础设施。疫苗覆盖率、后勤问题、会议出席情况等方面的数据报告来自数百个村庄,经过几次数据输入和编译的迭代,从笔试到纸张,最后每个月都会以数百张凌乱的Excel表格的形式到达中央办公室。该组织一般只需要从一系列指标中得到简单的总数和比例,但医生和高级专业人员只能花几天时间手工总结床单,这会带来很多错误,而且通常会浪费大量的时间。我加入了一些公式,至少在单张中自动化了这个过程,但是编译和交叉引用仍然是一个问题。

在数据中心( data collection...obviously )没有什么可做的--在入口实施某种系统将是很棒的,但这将涉及培训数百名官员和当地卫生工作者;目前不太实际。

我的问题是:如何处理每个月的excel表格,这样我们就可以单独和整体地进行分析了?有没有任何类型的管理应用。或者简单的数据库,我们可以建立上传和编译数据,以便于分析在R或甚至(喘息) excel?我可以实现什么样的工具,然后传递给一些相关的技术恐惧症呢?我们能把它都放在网上吗?

我绝不是一个程序员,但我是一名流行病学家/统计分析师,精通R和Google产品,以及不那么厌恶技术的通用工具。我会将此作为学习一些mySQL或类似课程的机会,但需要一些指导。任何想法都是appreciated...there必须是一个更好的方式!

EN

回答 4

Software Recommendation用户

发布于 2015-09-03 18:15:21

既然您说您有Microsoft,我将假设您也有访问权限。

我不太喜欢访问,但我必须说,有时它适合和快速地完成某些任务。

就数据输入而言:建立一个具有访问权限的数据库是非常容易的(他们对中学生和许多非科技人员进行教学),然后使用口罩进行数据输入就更容易了。此外,您还可以将数据导出/导入到Excel中。您还可以导出.txt文件,这对于在R中使用read.table()非常有用。

通过预构建数据库和允许用户输入预定义的值,您可以尝试标准化数据输入过程。掩码是为了从数据库中添加/搜索数据而填写的某种“表单”。

当然,这可能在一开始就不那么顺利,甚至不完全实用。如果这有什么帮助的话,因为您已经知道了R,Python具有非常相似的语法和许多有用的模块。其中,Pandas (http://pandas.pydata.org/)是一个很好的用于数据分析的Python模块:

  1. 可以轻松读取excel文件(几行代码)
  2. 可以很容易地处理缺失的值(用模式、中值、平均值或插值等替换它们)
  3. 可以方便地导出.csv,.txt格式,很好的导出数据,并加载到R以后。
  4. 可以很容易地将分类变量映射成数字。
  5. 很好的文件。

Python +熊猫组合提供了最大的灵活性,同时保持了不那么陡峭的学习曲线。如果你认识一个使用Python的人,你可能想问他一个你在这里问的同样的问题。

票数 2
EN

Software Recommendation用户

发布于 2015-09-02 10:53:57

正如您可能已经猜到的,没有自动解决所有问题的灵丹妙药,而且总是需要一些手工工作来修复格式化错误,但是有些工具可以帮助您。

为此,我建议使用五旬节

Pentaho (又名Spoon)可以摄取您的Excel表格,并将它们放入MySQL数据库中。您可以配置如何使用方框和箭头对列/行进行散列、过滤、转换和组织,即使是不懂SQL的人也可以管理它(但技术恐惧症者将遇到困难):

您可以组合多个Excel文件、来自MySQL的现有数据以及其他来源。您可以设置这个工具来执行计算并写入多个MySQL表(上面的屏幕截图只显示了一个“写到数据库”的步骤,但您可以拥有任意多个步骤)。

一旦数据在MySQL中,五旬节套件的其他工具允许您交互地探索数据,或者生成报告。

这不是一个部署和遗忘的解决方案:每个月你都会收到包含新的违规行为的数据,每次你(或你的继任者)需要手动修复这些数据或添加更多的过滤。

五旬节是免费的,开源的。

我已经使用五旬节自动生成有意义的报告,从大量格式不良的Excel文件,由一家主要的电子产品相关公司的经销商编写。

票数 1
EN

Software Recommendation用户

发布于 2015-09-02 17:23:24

我建议用LibreOffice 基座数据库代替excel的使用(这很费钱)。

然后,可以对要收集的特定数据的表单进行标准化,并指定诸如验证规则等内容。

最大的优势是:

  • LibreOffice是免费的、免费的和开放的
  • 跨平台--您收集数据的机器可以运行Windows x86或64 (最低限度Vista)、Mac x86_64 (10.8或更高版本)或Linux。
  • 多语言支持:请参阅这里 -当前支持的100多个
  • 为您的用户提供一套完整的办公套间
  • 您可以将基连接到SQL和其他服务器以合并数据。
  • 对标准文件格式的长期承诺
  • 数据可以从/导出到电子表格(Calc)等。
  • 向导帮助创建数据库和表单。
票数 0
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/23502

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档