首页
学习
活动
专区
圈层
工具
发布

在GenAI时代,iModel(和数据科学)

你可能会疑惑,为什么iModel没有全力投入GenAI,放弃数据科学。主要的是,我们坚信GenAI将在我们尚未考虑的领域继续产生深远影响——而且,理解数据所需的各种工具和技术不会很快消失。iModel需要提供直观访问所有工具和技术的方法——而不仅仅是GenAI。

GenAI将使数据科学技术更加强大——但不会消除人类与之合作的需要。实际上,恰恰相反。

我们以前见过类似的趋势。2013年,大数据风靡一时,新公司如雨后春笋般涌现,而现有公司则迅速彻底重新定位其软件,专注于大数据环境。几年后,传统的数据存储技术依然存在,能够将大数据加入到(通常更加多样化的)组合中才是真正重要的。然而,到了2017年,自动机器学习出现了,数据科学家的时代被认为即将终结。最终,我们认识到自动机器学习只能自动化部分数据科学家的工作。它成为了数据科学家工具箱中的又一工具,帮助他们更高效地工作——但肯定不会让他们变得多余。

毫无疑问,通用人工智能已经并且将继续对数据科学以及我们工作的许多其他方面产生更深远的影响——这不仅因为它的应用触及了我们生活的更多方面。然而,并非所有数据都会成为AI,人工智能也不会取代数据科学家,就像它不会取代程序员一样。它会处理许多较为常规的任务,同时也会继续激发我们工作中更具创造性的部分,但不会完全替代人类的直觉、领域知识和经验。

所以在iModel,我们不会放弃所有其他关键的数据工作,而只专注于GenAI。相反,我们将确保数据团队能够得到最新最优秀的GenAI技术的支持,并与之合作,从而摆脱数据科学创作中的繁琐部分,专注于真正有趣的事情。我们还将尽最大努力将GenAI集成到我们的软件中,以便人们可以更轻松地开始学习,并深入研究数据科学和数据分析领域。就像大数据和自动机器学习一样,我们将继续确保该领域的进展可以从iModel的工作流程中访问。有时你可能希望将GenAI添加到你的工作流程中,有时你可能希望将GenAI嵌入到工作流程中,以对输入和输出的数据进行一些合理性检查。有时你可能希望使用GenAI来抽象化你的工作流程,并向他人解释其自身或输出的内容。我相信我们——更可能是我们的社区——会想出更多利用AI增强数据和数据科学的方法。

然而,这种灵活性也带来了担忧:我们如何确保灵活使用生成式人工智能是安全的?我们能否保证只有匿名数据被发送到其他人的AI中?我们能否以某种方式确保输出不是完全胡言乱语(更糟糕的是,不道德或违法)?我们能否确保在自己组织内的使用被引导至最经济的AI,以防止消费完全失控?

有趣的是:这一切其实并不新鲜。构建模型一直存在包含机密数据或产生偏见输出的风险。管理数据科学流程——或者至少应该早就被人们关注——但这些风险达到了新的规模。以前,我们在数据科学投入生产时会担心这些问题。只要我们的团队探索新技术,这些风险就很小。但现在,即使是小型实验性的数据科学工作流也有能力与一个承诺更便宜且更酷的第三方AI分享极其机密的信息。

因此,iModel Hub从一开始就旨在帮助数据科学流程的持续、安全部署。验证和保护数据科学流程的机制已经就位,这使得我们能够轻松地在使用分析平台时添加关于使用哪些GenAI的控制措施,以及可以从iModel工作流中访问哪些AI模型。

这也得益于我们始终专注于一种统一且非常透明的数据处理方式。这种视觉工作流范式几乎涵盖了我们所有工作的方方面面,使得每一步都能得到文档记录、审计和可重复验证。此外,基于工作流构建的数据科学(CDDS)模块化持续部署框架,能够透明地验证数据和工作流,确保没有不必要的数据泄露到模型(或外部世界),并且输出结果会系统地进行合理性检查。这种严格的方法自然而然地延伸到了生成式人工智能领域。最终,我们可以确保没有任何机密数据被发送到外部的AI模型中,也不会用于训练。顺便说一句,这些对AI模型响应进行合理性检查的过程与保护经典数据科学流程的过程有许多相似之处。

依我们看来,生成式人工智能不会让数据科学家们失业。它会让工作更有趣!它会消除那些单调乏味的任务,让数据科学家能够专注于真正有趣、通常复杂的活动,这些活动才是真正理解数据的关键。这仍然不会容易,但我们力求使其尽可能直观,以便人类的大脑能在数据中发现更多有趣的东西。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OOkE0l3QMZV5Pe4KNayklCSQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券