我试图使用XGBOOST库来预测销售额。但是我使用的是Java,因为我比Python更熟悉Java。此外,我们还要验证的另一件事是,在使用相同的数据集训练模型时,使用Python是否会提高性能。
但问题是,我很难为Pandas、SciKit等找到Python等效库。因此,我使用下面的库来构建DataFrames,然后对它们进行一些操作。然后将其转储到CSV文件中,并再次使用另一个库读取数据,并执行培训和验证数据集的80/20拆分。在将数据读入XGBOOST库以创建DMatrix之前,我再次将输出转储到CSV文件中。
图书馆:
我知道这不是在Java中高效或正确地执行此分析的方法。但同时,我没有看到使用Java或Java中的任何库来完成所有这些工作的例子。
我想检查是否有人使用库的Java实现对数据执行了XGBOOST分析。另外,如果您使用过任何包来创建DataFrames,那么在将数据分割成训练和测试数据集之前执行操作等等。
任何帮助他都会非常感激的。
发布于 2021-09-19 09:26:55
我使用ND4J (https://github.com/deeplearning4j/nd4j)进行ndarray操作,并将XGBoost的平坦矩阵转换为通过DMatrix使用。
虽然我主要是使用与ndarray相关的操作而不是DataFrames,但我认为在JVM语言中实现这些操作是可行的,而且不会有太多的麻烦。
https://stackoverflow.com/questions/36030691
复制相似问题