数据成本能否扼杀AI启动？

文章来源：腾讯云开发者社区Ivy Nguyen, Zetta Venture Partners

数据为AI初创公司提供了防御性的护城河：初创公司收集的用于培训AI模型的数据越多，该模型的表现就越好，新的参赛者难以赶上。然而，这些数据并非免费提供，许多人工智能初创公司认为他们的利润受到这笔额外费用的侵蚀。随着时间的推移，您可能希望减少对数据的投入，但目前尚不清楚如何预测何时会发生这种情况以及在何种程度上预测未来增长的模型。

与软件初创公司不同的是，产品开发埋藏在损益表中的研发成本之下，AI初创公司应将数据成本作为销售成本（COGS）的一部分。将数据视为COGS而非研发成本将有助于您发现扩大规模并降低成本的机会，从而提高利润率。

下面的数据价值链流程图显示了大多数AI初创公司如何获取和使用数据。首先，您将基础事实的片段记录为原始数据。您将原始数据存储在某处，然后建立流程或管道以维护和访问它。在AI模型中使用它之前，需要对数据进行注释，以便模型知道如何处理每个数据点。然后，训练有素的模型接收数据并返回推荐，然后您可以使用该推荐来为最终用户采取某种结果。该过程可以分为三个不同的步骤：获取数据，存储数据和注释数据以训练模型。每一步都会产生成本。

数据采集成本

在所有数据价值链中，某种传感器（物理设备或人类）首先需要通过捕获对现实的观察来收集原始数据。在这种情况下，数据采集的成本来自创建，分配和操作传感器。如果传感器是硬件，则必须考虑材料和制造成本; 如果传感器是人类，那么成本来自于招募并为他们提供制作和记录观察所需的工具。根据您的覆盖范围需要多大，您可能需要支付大量费用来分发传感器。某些用例可能需要以高频率收集的数据，这也可能会增加人工和维护成本。例如，观众测量公司尼尔森，面临所有这些成本，因为它既提供了框，也支付参与者报告他们在电视上观看的内容。在这种情况下，随着尼尔森的数据变得越来越有价值，其覆盖范围越广泛，规模经济就会降低单位数据采购成本。

在某些使用案例中，您可以通过向他们提供管理工作流程的工具（例如，自动电子邮件响应生成器），然后将他们捕获的数据存储在他们的工作流程中，将数据采集的工作和成本转移给最终用户。工作或观察他们与工具的交互并将其记录为数据。如果您选择免费分发这些工具，数据采集的成本将是客户获取工作的成本。或者，您可以选择为工作流工具收费，这可能会减慢和限制客户采用率，从而减少数据采集，同时抵消数据采集成本，具体取决于您的价格。

例如，我公司的一家投资组合公司InsideSales为销售代表提供了一个平台，可以拨打他们的潜在客户。当销售代表使用该平台时，它会记录有关交互的时间，模式和其他元数据，以及该销售渠道中的销售线索是否进展。该数据用于训练AI模型以推荐最佳时间和通信模式以联系类似的线索。这里，随着越来越多的用户进入平台，网络效应可能会增加工具的实用性，这可能会降低用户获取成本。

或者，在另一个实体已经建立数据收集管道的情况下确保战略合作伙伴关系可以进一步降低成本。我们的另一家公司Tractable采用计算机视觉实现汽车保险调节器的自动化工作，正在与几家领先的汽车保险公司合作，以获取受损车辆的图像，而无需投资向个别车主分发应用程序。

存储和管理成本

在数据存储和访问方面，初创公司面临另一个成本问题。除了您收集的数据之外，您可能还需要客户提供其他上下文数据以丰富您的模型。许多行业最近才开始数字化，因此即使潜在客户拥有丰富模型所需的数据，也不要认为数据易于访问。为了使用它，您可能不得不花费大量人力来进行低利润率的数据准备。

此外，如果数据分布在不同的系统和孤岛中，您可能需要花费大量时间来构建每个集成，然后才能使模型完全正常运行。一些行业围绕单片和特殊技术堆栈构建，使得集成很难在客户之间重用。如果集成服务提供商不可用，那么您的AI启动可能会发现自己陷入了为每个新客户构建自定义集成之前，它可以部署其AI系统。数据结构的方式也可能因客户而异，要求AI工程师花费额外的时间来规范数据或将其转换为标准化模式，以便可以应用AI模型。建立一个通用集成库可以降低成本，因为您可以在新客户中重复使用它们。

培训费用

大多数AI模型构建方法都要求您标记和注释数据，这是AI初创公司最大和最可变的成本之一。如果示例很简单或通常被理解为足以使外行人能够执行注释 - 例如，在图片中的所有苹果周围绘制一个框 - 您可以使用外包劳务服务（例如Mechanical Turk或图8）来执行注释。

然而，有时候，注释需要更专业的知识和经验，例如基于视觉线索确定苹果的质量和成熟度，或者石油钻井平台上的生锈斑块是否危险。对于这种更专业的劳动力，您可能需要建立一个内部专家注释团队并支付更高的工资。根据您的注释方式，您可能还需要构建自己的注释工作流工具，尽管像Labelbox这样的公司现在正在出现提供此类工具。

在某些AI应用程序中，最终用户是最有效的注释器，您可以通过设计产品来卸载注释成本，以便用户在数据与产品交互时标记数据。Constructor是我们的投资组合公司，提供针对电子商务的人工智能网站搜索，观察用户实际点击并购买每个搜索词的产品，使他们能够优化搜索结果以获得更高的销售额。这种注释不可能通过外包或专家搜索服务进行人工操作，并且可以保存Constructor，否则可能是重要的注释成本。

即使在您以高精度训练模型之后，当模型不确定如何解释新输入时，您偶尔也需要人类进行干预。根据模型如何为最终用户提供价值，该用户自己可以对模型进行更正或注释，或者您的创业公司可以通过采用质量控制“AI保姆”来处理异常。如果环境是您的建模是易变的并且以高速和常规速率变化，您可能希望保持稳定状态的注释器团队以根据需要使用新数据更新模型。

扩展AI业务

第一批成功的人工智能企业进入市场，提供无AI工作流程工具，以捕获最终培训AI模型并增强工具价值的数据。这些创业公司早期就能够实现软件利润，因为数据和人工智能是创业公司价值主张的次要因素。然而，随着我们转向人工智能的更专业应用，下一波人工智能创业公司将面临更高的启动成本，并需要更多的人力资源来为客户提供初始价值，使其成为低利润率的服务业务。

获得大量客户和数据将最终降低单位经济效益并构建关键的复合防御能力，但许多初创公司并不确切知道这一点到底有多远，以及他们需要做些什么来更快地实现目标。最好的人工智能初创公司将了解哪些杠杆可以在该途径上进行优化，并有意识地使用它们来进行正确的投资并快速扩展。

发表于: 2018-11-102018-11-10 12:10:00
原文链接：https://venturebeat.com/2018/11/10/could-data-costs-kill-your-ai-startup/
如有侵权，请联系 cloudcommunity@tencent.com 删除。

数据成本能否扼杀AI启动？

数据采集成本

存储和管理成本

培训费用

扩展AI业务

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

数据成本能否扼杀AI启动？

数据采集​​成本

存储和管理成本

培训费用

扩展AI业务

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

数据采集成本