我正在尝试根据提供相同产品的竞争对手的价格(以及其他变量),对零售商产品的日常需求进行建模。我有20列不同竞争对手的价格在同一日期为这个特定的产品。然而,在观察期间,该零售商的产品范围超过8万种,当然,并不是所有的竞争对手都提供所有这些产品。事实上,在大多数情况下,只有2到3个竞争对手提供相同的产品。这导致了许多缺失值,表明该竞争对手当时不提供该产品。
考虑到大量的缺失值,以及它们本身包含有价值的信息的事实,我不想简单地归因于这些缺失值:竞争对手是否提供了该产品。
是否有监督学习算法可以将缺失值作为特定情况进行处理?
发布于 2019-02-21 17:25:50
我也同意,在这种情况下,由于丢失的信息丢失,推算不是一个好主意。但是,考虑到创建指示某个值是已知还是缺失的附加特征的想法,您可以尝试按平均值填充缺失的值,然后对数据使用LogisticRegression。
https://stackoverflow.com/questions/54791427
复制相似问题