
“数据科学家 70% 的加班都花在洗特征,却常因一步误操作把 AUC 打回原型。”这项研究直接把这段苦日子清零:Dataforge 用“六段式”自动流水线,3.9 秒、2 次 LLM 调用就完成从脏数据到可解释报告的全程,零报错、零训练成本,九大数据集全面领先。CSV 一键上传,系统自己挑路、自己试错、自己优化,连心脏病 44 维特征都能秒级压到 20 维,AUC 反涨 0.068——真正让数据工程进入“无人区”。
作者用镜头对准人工数据清洗的痛点:平均5–7 天、11 % 类型转换错误、6 % 特征泄漏。 schema 对齐、缺失值填补、类型修正每一步都要手写脚本;一旦源格式微调,回炉重跑又得从头排错。 某医院团队用 44 维心脏病数据做特征选择,因离群点未剔除导致 AUC 从 0.77 跌至 0.63,浪费 80 张 GPU 时。 OpenML 618 回归任务中,手工调PCA 主成分数迭代 18 次、累计 32 小时,仍比自动结果低 0.12。 隐性成本随样本线性膨胀,成为“零代码”时代前绕不过去的堵点。

Dataforge 把两级路由做成“秒级切片机”:任务路由器先用规则在 1 ms 内把数据扔进分类/回归/聚类专属车道;随后轻量 LLM 动作规划器在锁死的 128 步动作空间里挑特征、做变换,全程不碰高风险脚本。 第一道动作验证环把语法、维度、泄露全预检,提前拦截 100 % 运行时错误;第二道性能优化环用实时 F1、AUC、RMSE 打分,好策略立即固化,差策略当场重排,形成双反馈环自迭代。 结果特征工程被切成“安全快车道”:平均 3.9 秒、2 次 LLM 调用即收工,九项基准零失败、零冗余操作,把传统数小时的手动调参压缩成毫秒级决策与秒级交付。

该论文在9 项公开基准上跑通“零训练”流水线,平均耗时 3.9 秒,仅触发 2 次 LLM 调用,零失败、零无效操作。 分类支路中,Adult 数据集 F1 由 0.851→0.857,Bank Marketing AUC 由 0.931→0.938;回归支路里,California Housing RMSE 降至 0.467,超 SOTA 2.1 %;聚类支路于 Credit Card 将 Silhouette 从 0.321 拉到 0.349。 全程无人工调参,特征维度平均压缩 42 %,指标提升中位数 3.7 %,速度较 AutoML 基线快 18×。

作者把克利夫兰心脏病 CSV 拖进浏览器,一键上传即触发“零代码”流水线。 100 秒内,两级路由先判定二分类任务,再让轻量 LLM 在限定动作空间里砍掉 24 个冗余特征,44 维→20 维。 双环评估同步验证:动作验证环零报错,性能优化环用 AUC 作唯一金标准,把结果从 0.772 推到 0.840。 全程无人工调参,前端实时可视化并生成自然语言报告,医生直接获得可解释的高精度模型。

核心贡献:Dataforge 把数据准备从“手工作坊”带进“自动驾驶”,3.9 秒、零失败、AUC 提至 0.840。 当前局限:仅面向CSV 结构化数据,多模态信号与行业知识库尚未接入。 未来方向:接入影像+文本+波形的多模态路由,开放医疗、金融、制造插件市场,Dataforge 有望变成每个数据科学家的自动驾驶座舱。 当数据准备不再耗费 90 % 时间,分析师会把创造力投向哪里?
论文地址:https://arxiv.org/pdf/2511.06185