我有一个非常大的数据集(大约20 it )存储在磁盘上,名为Pandas/PyTables,我想在它上面运行随机森林和增强树。尝试在我的本地系统上做这件事需要很长时间,所以我想把它租给一个我可以访问的spark集群,而不是使用MLLib例程。虽然我已经设法将pandas数据帧加载为spark数据帧,但我对如何在MLLib例程中使用它感到有点困惑。我不太熟悉MLLib,它似乎只接受LabeledPoint数据类型。我非常感谢任
我的模型在没有增强的训练和测试集上都有很好的准确性,但是我想学习增强,所以我使用了火炬视觉变换来增强,在应用了增强模型之后,开始做最坏的事情,损失也没有减少。自定义数据集 def __init__(self,data,train_end_idx,augmentation = None):'''
data: data is a pandas dataframe
我需要对我的数据集进行实时增强,以便输入到CNN,但我真的很难找到适合它的库。我已经尝试过caffe,但是DataTransform不支持很多实时增强功能,比如旋转等等,所以为了便于实现,我选择了Lasagne。但它似乎也不支持实时增强。我看过一些关于他使用Batchiterator of nolearn.lasagne的Facial Keypoints detection的帖子。但我不确定它是否是实时的。没有合适的教程来指导它。那么最后,我应该如何通过nolearn或其他方式在Lasa