我正在阅读谷歌的论文"ML测试分数: ML生产准备和技术债务减免的一个标准“,它为生产中的模型提供了最佳实践建议。在关于数据管道中的隐私控制的一节中,它说:
最后,测试任何用户请求的数据删除是否传播到ML培训管道中的数据,以及任何已学习的模型。
我理解从数据管道中删除数据的问题,但是否有可能在不对新数据进行再培训的情况下“不学习”一个培训示例?他们在文件中提到,这些做法在google中被使用过,所以可能有一种有效的方法,但我无法获得有关这方面的任何信息。
我正在寻找关于这个问题的任何文献,或者关于如何继续解决这个问题的任何想法。
编辑:关于进一步的研究,我发现了这的论文,重点是具体的问题。虽然做了很多假设,但他们也提出了一种k-均值的方法。看起来这是一个即将到来的研究领域,需要时间来开发!
发布于 2020-04-28 19:48:22
有没有可能在没有新的数据再培训的情况下,“不学习”一个培训的例子呢?
想到的最明显的例外是基于实例的学习,例如kNN:由于“模型”本身只包含一组训练实例,因此删除实例很简单。
一般情况下,监督ML依赖于基于训练集实例的泛化模式。任何非平凡的模型都由多个这样的模式组成,每个模式都可能由不同的实例子集产生。即使有一种方法来跟踪哪个实例参与到哪个模式(这将是极其低效的),删除任何模式可能会导致模型失败。
https://datascience.stackexchange.com/questions/73163
复制相似问题