我有超过20K个样本的gwas微阵列实验数据结果。每个样本具有大约1.000.000个标记的数值输出值。所以我有一个20000 x 1000000的理论表。最终目标是创建一个web服务,以便显示少量样本的输出值。我有几十个变量来构建查询。我的问题是如何以一种有效的方式创建这种数据库。对于这么大的数据量,MySQL是最好的选择,还是只依赖于服务器硬件?
提前谢谢。
我正在用源数据更新目标表。源文件是excel,目标文件是sql server表。在源文件中,我确实有一个特定的项目相关数据,而在目标表中,我确实有几个项目。数据在每个项目中包含数百万行。所以源和目标的大小是非常大的。
我正在使用查找转换来比较数据并进行相应的更新。问题是,由于目标表的大小非常大,将整个数据加载到查找缓存中需要花费很多时间。那么有没有办法只加载源文件的项目数据,比如(select * from table where projectid=sourcetable.projectid)
请指教
谢谢