首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >数据在openCPU中的作用

数据在openCPU中的作用
EN

Stack Overflow用户
提问于 2012-06-22 04:15:56
回答 3查看 785关注 0票数 3

我很清楚这个事实,这可能不是典型的SO问题,但由于这是我所知道的最强大的R编程社区,也是opencpu explicitly encourages to post here的作者,我将尝试一下:

数据在opencpu方法中扮演什么角色?我的意思是云计算很好,但是你需要一些数据来计算。上传一些示例.csv或.xls表可能很简单,但是opencpu对于现实世界的数据有什么想法呢?

那么几百MB(甚至GB)的数据呢?您将如何a)将其传输到您的用户文件夹?您将如何b)在一组经过身份验证的用户之间共享它,以及c)对公众隐藏它?

我阅读了license部分,根据我对安全性的理解,只要源代码公开,就应该可以在幕后运行计算。但尽管如此,这份小小的文档仍然留下了悬而未决的问题和大量的猜测。

EN

回答 3

Stack Overflow用户

发布于 2012-06-23 04:15:24

感谢您尝试使用OpenCPU。在这一点上,OpenCPU仍然是一个不断发展的项目,所以我们对有趣的建议或用例持开放态度。

关于数据...你同时问了很多问题。一些想法:

  • 在这一点上,OpenCPU并没有解决“大数据”问题。它不会超出R本身的可伸缩性。它主要是作为中小型数据的基础架构;例如,典型的研究论文、项目等。
  • OpenCPU是一个应用编程接口。它并不局限于浏览器客户端。
  • OpenCPU有一个存储区,您可以使用它在服务器上存储R对象。例如,你上传一次CSV或其他任何东西,然后存储实际的数据帧。在任何后续调用中,您都可以将此对象作为参数包含到函数调用中。
  • 另一种方法是将其与外部数据库(例如mysql)相结合,并动态地提取R代码中的数据(例如使用RMySQL)
  • Afaik,开放数据的法律方面在这一点上还不完全清楚。我不认为在如何将版权应用于数据以及什么是一个好的许可证方面存在共识。然而,OpenCPU设计中的一个关键特性是确保内容易于重现。当然,只有在数据实际上是公开的情况下才能做到这一点。
票数 2
EN

Stack Overflow用户

发布于 2014-11-02 17:35:59

马特

我正在处理一个现实生活中的用例,其中涉及转换和处理来自3 3GB (但不断增长)数据集的数据。以下是我使用的方法(主要基于Gergely Daróczi的建议):

  • 只要源数据可以装入服务器内存,我就会选择用R包加载数据并跨用户会话保存数据(例如,用OpenCPU预加载数据包)
  • 如果你的服务器上没有这个选项,另一种选择是将数据复制到Ramdisk (Linux tmpfs系统)到.rds (或.rda.rData等)。文件,并使用R包中的getOption("path_to_my_persistent_data_files")设置这些路径,然后根据需要在您的包中加载/卸载这些文件functions
  • when您的数据不再适合内存,我会考虑使用MongoDB后端和R接口rmongodb,因为这可能会比关系型数据库管理系统更快,更容易维护。

目前,OpenCPU不提供对大型持久数据集的任何支持,这取决于您找到一种最适合您的需求和资源的方法。

票数 1
EN

Stack Overflow用户

发布于 2012-06-22 07:27:56

您可以安装opencpu的本地实例。你不需要在互联网上使用现有的。说明在网站上。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11146050

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档