首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Dataforge:3.9秒零报错,AUC飙至0.840

Dataforge:3.9秒零报错,AUC飙至0.840

作者头像
梯度不陡
发布2026-05-18 20:09:15
发布2026-05-18 20:09:15
970
举报

“数据科学家 70% 的加班都花在洗特征,却常因一步误操作把 AUC 打回原型。”这项研究直接把这段苦日子清零:Dataforge 用“六段式”自动流水线,3.9 秒2 次 LLM 调用就完成从脏数据到可解释报告的全程,零报错零训练成本,九大数据集全面领先。CSV 一键上传,系统自己挑路、自己试错、自己优化,连心脏病 44 维特征都能秒级压到 20 维,AUC 反涨 0.068——真正让数据工程进入“无人区”。

手工清洗的三座大山

作者用镜头对准人工数据清洗的痛点:平均5–7 天11 % 类型转换错误6 % 特征泄漏schema 对齐缺失值填补类型修正每一步都要手写脚本;一旦源格式微调,回炉重跑又得从头排错。 某医院团队用 44 维心脏病数据做特征选择,因离群点未剔除导致 AUC 从 0.77 跌至 0.63,浪费 80 张 GPU 时。 OpenML 618 回归任务中,手工调PCA 主成分数迭代 18 次、累计 32 小时,仍比自动结果低 0.12。 隐性成本随样本线性膨胀,成为“零代码”时代前绕不过去的堵点。

两级路由:秒级切片机

Dataforge 把两级路由做成“秒级切片机”:任务路由器先用规则在 1 ms 内把数据扔进分类/回归/聚类专属车道;随后轻量 LLM 动作规划器在锁死的 128 步动作空间里挑特征、做变换,全程不碰高风险脚本。 第一道动作验证环把语法、维度、泄露全预检,提前拦截 100 % 运行时错误;第二道性能优化环用实时 F1AUCRMSE 打分,好策略立即固化,差策略当场重排,形成双反馈环自迭代。 结果特征工程被切成“安全快车道”:平均 3.9 秒2 次 LLM 调用即收工,九项基准零失败零冗余操作,把传统数小时的手动调参压缩成毫秒级决策秒级交付

九大数据集实战成绩单

该论文在9 项公开基准上跑通“零训练”流水线,平均耗时 3.9 秒,仅触发 2 次 LLM 调用零失败、零无效操作分类支路中,Adult 数据集 F1 由 0.851→0.857Bank Marketing AUC 由 0.931→0.938回归支路里,California Housing RMSE 降至 0.467超 SOTA 2.1 %聚类支路Credit CardSilhouette 从 0.321 拉到 0.349。 全程无人工调参特征维度平均压缩 42 %指标提升中位数 3.7 %速度较 AutoML 基线快 18×

心脏病检测秒变 20 维

作者把克利夫兰心脏病 CSV 拖进浏览器,一键上传即触发“零代码”流水线。 100 秒内,两级路由先判定二分类任务,再让轻量 LLM 在限定动作空间里砍掉 24 个冗余特征,44 维→20 维双环评估同步验证:动作验证环零报错,性能优化环用 AUC 作唯一金标准,把结果从 0.772 推到 0.840。 全程无人工调参,前端实时可视化并生成自然语言报告,医生直接获得可解释的高精度模型

从手工作坊到自动驾驶

核心贡献:Dataforge 把数据准备从“手工作坊”带进“自动驾驶”,3.9 秒零失败AUC 提至 0.840。 当前局限:仅面向CSV 结构化数据多模态信号行业知识库尚未接入。 未来方向:接入影像+文本+波形的多模态路由,开放医疗、金融、制造插件市场,Dataforge 有望变成每个数据科学家的自动驾驶座舱。 当数据准备不再耗费 90 % 时间,分析师会把创造力投向哪里?

论文地址:https://arxiv.org/pdf/2511.06185

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 梯度不陡 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 手工清洗的三座大山
  • 两级路由:秒级切片机
  • 九大数据集实战成绩单
  • 心脏病检测秒变 20 维
  • 从手工作坊到自动驾驶
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档