当心数据成本,它可能会扼杀你的AI初创企业!
3607
2018-11-13 10:10
文章摘要:作为AI三要素之一,数据是很多AI创业公司早期投入成本中很大的一部分,因此,能否规划好该成本事关其生死。

作为 AI 三要素之一,数据为人工智能初创企业提供了一条防御护城河:公司用以训练AI模型的的数据越多,模型表现就越好,这样新进入者赶上的机会就越小。然而,这里所说的数据并不是免费的,因此,许多AI创业公司的利润被数据成本所侵蚀。当然,你也可以寄希望于随着时间的推移,模型功能的提高,在数据上的花费变得更少,但是谁也无法预测这一天何时到来以及到底可以减少多少,基于这些原因,AI创业者很难为公司的未来增长建模。

与软件创业公司不同,在损益表中,其产品开发成本远低于研发成本,所以可以合并在研发成本中,但AI创业公司应该将其数据成本作为商品销售成本(COGS)独立的一部分,只有这样,才能够帮助你发现扩大规模和降低成本以增加利润的机会。

下面的数据价值链流程图展示了大多数AI创业公司是如何获取和利用数据的。首先,将事实片段记录下来作为原始数据,将这些原始数据储存在某处,然后建立流程或管道来维护和访问这些数据。在将这些数据用于AI模型前,需要将它们做好注解,以便模型知道如何处理每个数据点。然后,训练好的模型接收数据并反馈出建议,公司可以利用该建议采取行动为终端用户驱动某种结果。这一过程可分为三步:获取数据、存储数据、注释数据以训练模型。当然,每步都会产生成本。

1.png

数据采集成本

在所有的数据价值链中,各种传感器(无论物理设备还是人类)首先需要通过捕捉对现实的观察来搜集原始数据。在这一环节,数据采集成本来自于创建、分发和操作传感器。如果该传感器是物理硬件,那么就需要考虑材料和制造成本,如果是人工,则来自招募人员以及向他们提供记录观察结果所需工具的成本。根据覆盖范围的需要,你可能需要支付大量的费用来分发传感器。一些用例可能需要以高频率收集数据,这也可能增加人工和维护成本。例如,收视率监测公司尼尔森(Nielsen)就面临着所有这些成本,因为它既提供电视转播盒,又向参与者付费,让他们报道他们在电视上看到的内容。在这种情况下,规模经济降低了单位数据获取成本,因为尼尔森的数据越全面,其价值就越高。

2.png

在某些用例中,你可以将部分工作和成本数据采集成本转向最终用户,通过给其提供一个工具来管理他们的工作流程(例如一个自动电子邮件反应发生器),然后将他们捕获的数据存储或观察他们与工具的交互,记录下来作为数据。如果你选择免费分发这些工具,那么数据获取的成本将是客户获取工作的成本。或者,你可以选择对工作流工具进行收费,这可能会减慢和限制客户的采用,从而在抵消数据获取成本的同时,根据你的定价方式进行收费。

例如,投资组合公司InsideSales,为销售代表提供了一个平台,让他们可以利用自己的领先优势。当销售代表使用该平台时,它会记录有关交互的时间、模式和其他元数据,以及一领先优势是否会在销售渠道上取得进展。这些数据被用来训练人工智能模型,以给出最好的时间和沟通方式的建议来联系类似的领导。在这里,随着越来越多的用户使用该平台,网络效应可能会增加工具的实用性,从而降低用户获取成本。

另外,在另一家实体已经建立了数据收集渠道的情况下,建立战略伙伴关系可能会进一步降低成本。另一家公司Tractable,它利用计算机视觉将汽车保险调整器的工作自动化。该公司正与几家领先的汽车保险公司合作,以获取受损汽车的图像,而不必投资向单个车主分发应用程序。

数据存储和管理成本

在数据存储和访问方面,初创企业面临着另一个成本问题。除了收集的数据之外,你可能还需要你的客户提供额外的相关数据来丰富你的模型。许多部门直到最近才开始数字化,所以即使潜在客户拥有丰富模型所需的数据,也不要认为数据很容易访问。为了使用它,你可能需要花费大量人力来准备低利润的数据。

3.png

此外,如果数据分布在不同的系统和竖井中,你可能需要花费大量时间来构建每个集成,才能使模型完全发挥功能。有些行业是围绕着单一的、特殊的技术栈构建的,这使得集成在客户之间难以重用。如果集成服务提供商不可用,你的人工智能初创企业可能会发现自己陷入了为每个新客户构建定制集成的困境,然后才能部署其人工智能系统。数据的结构方式也可能因客户的不同而有所不同,这需要人工智能工程师花费额外的时间对数据进行规范化或将其转换为标准化模式,以便应用人工智能模型。建立一个通用集成库将降低成本,因为你可以在新客户中重用它们。

AI 模型训练成本

大多数人工智能模型的构建方法都需要对数据进行标记和注释,这是人工智能初创企业面临的最大且最可变的成本之一。如果例子很简单,或者通俗易懂,一个外行就可以执行注释,例如,在图片中所有的苹果周围画一个框,你可以使用外包的劳务服务,如Mechanical Turk或Figure8 来执行注释。

然而,有时候,注释需要更专业的知识和经验,比如仅凭视觉线索就能判断苹果的质量和成熟度,或者油井上的一块锈斑是否危险。对于这种更专业的工作,你可能需要建立一个内部专家注释团队,并向他们支付更高的工资。根据注释方式的不同,你可能还必须构建自己的注释工作流工具,尽管像Labelbox这样的公司现在也开始提供这样的工具。

4.png

在一些人工智能应用程序中,最终用户是最有效的注释者,你可以通过设计产品来减轻注释成本,以便用户在与产品交互时标记数据。例如Constructor公司为电子商务提供人工智能的网站搜索,它观察用户使用每个搜索词实际点击和购买的产品,使他们能够优化搜索结果以获得更高的销售额。这种注释不可能通过外包服务或专家搜索服务来人为地完成,这样可以节省构造函数的注释开销。

即使你已经将模型训练到很高的精度,当模型不确定如何解释新输入时,你偶尔也需要人工干预。根据模型向最终用户交付价值的方式,用户自己可能会对模型进行更正或注释,或者你的初创企业可以通过使用质量控制“人工智能保姆”来处理异常。如果你正在建模的环境是不稳定的,并且以很高的频率进行更改,那么你可能希望保持一个稳定的注释器团队,以便根据需要使用新数据更新模型。

扩展AI业务

第一批成功的人工智能企业进入市场,提供无AI的工作流程工具,以捕获最终培训AI模型并增强工具价值的数据。 这些创业公司早期就能够实现软件利润,因为数据和人工智能是创业公司价值主张的次要因素。 然而,随着我们转向人工智能的更专业应用,下一波人工智能创业公司将面临更高的启动成本,并需要更多的人力资源来为客户提供初始价值,使其成为低利润率的服务业务。

获得大量客户和数据将最终降低单位经济效益并构建关键的复合防御能力,但许多初创公司并不确知到达这一点到底还需要走多远,以及他们需要做些什么来更快地实现目标。 而最好的人工智能初创公司将了解哪些杠杆可以在该途径上进行优化,并有意识地使用它们来进行正确的投资并快速扩展。

原文链接:https://venturebeat.com/2018/11/10/could-data-costs-kill-your-ai-startup/


版权声明:

凡本网内容请注明来源:T媒体(http://www.cniteyes.com)”的所有原创作品,版权均属于易信视界(北京)信息科技有限公司所有,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,易信视界(北京)信息科技有限公司将追究其相关法律责任。

评论