我正在尝试将一个大的csv文件(大约18G)加载到rapidminer中,用于构建分类模型。“导入配置向导”似乎很难加载数据。因此,我选择使用“编辑参数列表:数据集元数据信息”来设置属性和标签信息。但是,UI界面只允许我逐列设置这些信息。我的csv文件大约有80000列。我应该如何处理这种情况?谢谢。
发布于 2013-03-07 12:56:24
我自己还没有尝试过,但您应该能够将CSV加载到MySQL数据库中。然后,可以使用流数据库运算符来避免大小限制。以下是来自RapidMiner的描述:
与将数据加载到主内存中的读取数据库操作符不同,流数据库操作符将数据保留在数据库中,并成批执行数据读取。这允许RapidMiner访问任意大小的数据集,而不受任何大小限制。
https://stackoverflow.com/questions/14742918
复制相似问题