数据成生成式AI成功关键，亚马逊云科技如何为企业夯实数据基座？

搜索

公众号

发布

数据成生成式AI成功关键，亚马逊云科技如何为企业夯实数据基座？

丁常彦

2024-05-10

0 评论 5348 浏览 0 收藏

亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座，在确保用户业务和数据安全的前提下，将数据的独特价值赋予基础模型和生成式AI应用，加速企业业务增长。

一直以来，算法、算力、数据都被看作是人工智能的三大核心要素。尤其在生成式AI大行其道的今天，数据已经成为生成式AI发展的基础；同时，生成式AI也在赋予数据以新的生命力，进一步释放数据价值。

正所谓无数据，不模型。对于企业来说，数据是企业在生成式AI时代取得成功的关键。虽然每个公司都能访问相同的基础模型，但那些能够利用自己的数据、构建具有真正商业价值的生成式AI应用的公司，将会是成功的公司。

由此可见，生成式AI的差异化优势来源于企业的专有数据，生成式AI应用产生的大量新数据也需要及时有效地加以管理和利用。那么，企业如何才能增强自身数据处理的能力呢？对此，亚马逊云科技已经构建起三大核心能力，以帮助企业夯实数据基座，从容拥抱生成式AI时代，即模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力，以及有效处理新数据以助推生成式AI应用持续快速发展的能力。

对此，亚马逊云科技大中华区产品部总经理陈晓建表示：“亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景，能够帮助企业轻松应对海量多模态数据，提升基础模型能力。”

能力一：模型微调和预训练所需的数据处理能力

在企业应用生成式AI过程中，原始数据必须要经过专门的处理、预训练等，才能支持模型训练。而要做到这一点，企业首先要找到合适的存储来承载海量数据，其次要将原始数据清洗加工为高质量数据集，第三要对整个组织内数据的发现编目治理。

在数据存储方面，扩展性和响应速度是关键。由于微调、预训练基础数据需要海量的多模态数据，这些数据的大小可以是TB甚至PB级别，存储必须能够承载海量数据；同时，存储性能也必须要跟上计算资源，以避免计算资源浪费或者拉长数据训练时间。亚马逊云科技Amazon S3对象存储和Amazon FSx for Lustre文件存储服务可以从扩展性和响应速度上满足企业需要。

在数据清洗方面，企业往往需要处理繁重的数据清洗加工任务，以公开搜集的2TB英文数据集为例，企业经过清洗、去重后变成1.2TB的数据，再经过分词处理成大约3000亿的tokens。而亚马逊云科技推出的Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、乃至分词的操作，让企业专注于生成式AI业务创新。

在数据治理方面，企业往往面临如下难题：难以找到分布在各帐户和地区的数据，数据访问的控制很难管理且容易出错，数据分析师访问权限不足等。同时，企业也缺乏有效的数据治理工具。为此，Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据，轻松开展数据治理。

能力二：利用专有数据与模型快速结合以产生独特价值的能力

伴随着生成式AI应用范围越来越广，基础模型自身的局限性也日益凸显，比如缺乏垂直行业的专业知识，缺乏时效性，生成错误信息（幻觉），给用户带来敏感数据的隐私合规风险等。由于存在上述问题，企业若想让生成式AI给出高质量答案，就必须解决简单对话背后蕴含的复杂提示工程。

其中，检索增强生成（Retrieval-Augmented Generation，RAG）技术被普遍认为是实现数据与模型结合的主要途径之一，它通过将数据转换为向量并存储到向量数据库中，从而将语义的关联性转化为向量间的数学距离问题，以实现内容的关联性计算。

RAG场景的核心组件就是向量存储，现代应用程序需精准理解用户需求并正确关联产品或内容，这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中，这些框架又依赖于功能各异的数据库，这使得数据库成为实施RAG技术的理想平台。

向量存储的理想情况，是将向量搜索和数据存储结合在一起。这样一来，用户就无需额外学习新的向量存储，无需添加额外的组件和费用，无需迁移现有数据，将向量检索和现有数据关联时也会有更快的体验。

目前，亚马逊云科技已经在八种数据存储中添加了向量搜索功能，让客户在构建生成式AI应用程序时有更大的灵活性，未来还将继续加快创新速度；除此之外，亚马逊云科技还为图数据库Amazon Neptune推出了分析数据库引擎，以结合图数据库与大模型的优势，从而能够快速从图形数据中获取洞察，并进行更快的向量搜索。

能力三：有效处理新数据以助推生成式AI应用持续快速发展的能力

对生成式AI应用程序而言，基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间，基础模型每次调用时长往往达到秒级。此外，每次调用基础模型也会增加成本。

在企业应用生成式AI过程中，终端用户绝对大部分问题是类似甚至重复的，因此，企业可以将之前问答生成的新数据存入缓存，从而在面对类似问题时，可以不调用模型，直接通过缓存给出回答，这不但能够减少模型调用，还可以节约成本。

为了帮助企业实现这一目标，Amazon Memory DB内存数据库通过缓存之前问答生成的新数据，实现对类似问题的快速响应和准确回答，同时有效降低基础模型的调用频率。Amazon Memory DB能够存储数百万个向量，只需要几毫秒的响应时间，能够以99%的召回率实现每秒百万次的查询性能。

不仅如此，企业借助无服务器和生成式AI的组合，可以快速交付创新的生成式AI应用程序和功能。其中，无服务器可以减少繁重复杂运维，让企业更加聚焦在生成式AI创新上；还可以快速扩展消除性能瓶颈，并根据负载快速扩缩资源等等；不过，无服务器的应用还牵扯到安全隔离、故障处理、负载均衡、自动扩展等，这些也给企业技术能力提出了更高要求。

亚马逊云科技通过提供无服务器数据库服务和Amazon OpenSearch Serverless用于向量搜索，则可以最大限度降低无服务器应用门槛，并充分发挥无服务器的优势。除此之外，Amazon Music通过分析用户和歌曲的特征，并将它们转换成向量以提高推荐精准度。

如今，伴随着生成式AI在企业中的应用广度和深度不断扩展，数据基座所扮演的角色越来越凸显。对此，陈晓建强调，作为全球云计算的开创者和引领者，亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座，在确保用户业务和数据安全的前提下，将数据的独特价值赋予基础模型和生成式AI应用，加速企业业务增长。

点赞 0收藏 0打赏 0评论 0