使用 Amazon SageMaker 和 Amazon CodeWhisperer，解锁数据见解

这篇具有很好参考价值的文章主要介绍了使用 Amazon SageMaker 和 Amazon CodeWhisperer，解锁数据见解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

关键字: [Amazon Web Services re:Invent 2023, Amazon Kendra, Generative Ai, Amazon Sagemaker, Amazon Kendra, Amazon Bedrock, Vector Databases]

本文字数: 1700, 阅读完需: 8 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV19j41157Ux

导读

由于数据准备、清理、探索和可视化效率低下，从数据中获取见解可能是一项挑战。在本论坛中，了解 Amazon SageMaker 与 Amazon CodeWhisperer 的功能如何彻底改变数据准备和数据管理工作流。探索数据准备过程，以及如何使用特定于领域的数据集微调基础模型。通过 Amazon SageMaker 了解如何使用具有定制数据、向量数据库和开放访问大语言模型，发挥生成式 AI 的价值。

演讲精华

以下是小编为您整理的本次演讲的精华，共1400字，阅读时间大约是7分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

在这个视频中，超过100名与会者聆听了亚马逊云科技开发者关系团队的Victoria和Linda的介绍。他们分享了如何运用生成性AI服务，尤其是Amazon SageMaker和Amazon CodeWhisperer，从数据中提取有价值的信息。

作为re:Invent的常客，Victoria在会议上热情地欢迎了首次参加峰会的与会者。她注意到很多人举手表示赞同，并提到尽管她已经参加了三次峰会，但每年的活动都在不断改进。她鼓励与会者在会后提出任何问题，承诺她和Linda会非常乐意提供关于会议期间的高级技巧或有趣活动的指导。

作为一名亚马逊云科技开发者关系团队的一员，Victoria和Linda非常享受他们的工作，因为这使他们有机会参加各种活动、创建教育内容，以及最重要的是收集用户反馈，以便与客户一起推动产品创新。例如，医疗保健提供者可以提供关于改进医学成像分析的意见，而制造业公司可能提供关于预测性维护使用情况的见解。她邀请观众在活动期间向他们提供任何他们希望分享的产品反馈。

在深入讨论议程之前，Victoria向观众提问，是否有人还记得曾经需要翻阅图书馆的实体书籍来查找单一信息的时期。当听到有些人能够回忆起这种过时的经历时，她将之与将大量数字文档、研究论文和网站汇集到一个机器可读格式的可能性进行了对比。例如，一位生物学专业的学生可以将所有的教科书和笔记输入到一个由生成性AI驱动的系统中。通过为这些生成性AI基础模型补充这种聚合数据，可以立即提供答案，而不是需要进行广泛的搜索。她为如何在即将进行的演示中展示实现这些功能的技术设定了基调。

维多利亚详细地阐述了传统AI与生成性AI之间的差异。在过去，为了实现单一任务（如物体识别）而开发AI解决方案需要经过数月的时间，包括数据准备、标注、模型训练和调整优化等环节。然而，现在通过在大规模数据集（包含数十亿参数）上训练的生成性AI基础模型，一次就可以解决多种任务。例如，银行可以利用预训练的模型来分析客户交易数据，而不需要从头开始构建定制的欺诈检测模型。她强调，本次会议的重点是利用企业数据来定制这些通用模型。

在介绍支持生成性AI应用的技术栈时，维多利亚描述了顶层用户面向的应用程序（如Alexa或ChatGPT），它们是由中间的基石模型驱动的。她将基石模型分为专有模型（如Amazon TITAN，拥有700亿参数）和Anthropic Claude以及可以通过模型中心自行管理和访问的开源模型。技术栈的底层包括云平台（如亚马逊云科技亚马逊云科技），它提供工具、硬件和基础设施来训练和提供服务这些模型。

维多利亚通过一个示例展示了人类如何与这个技术栈互动：从包含指令、背景信息和用户问题的提示开始。该提示被大型语言模型用于生成输出响应。虽然这个界面可能看起来神奇，但她警告说这是一个仍有幻觉倾向的不完美技术，即模型编造出的完全错误的回应。例如，当被问到“什么是Amazon Bedrock?”时，模型给出了一个听起来合乎逻辑但完全是虚构的错误解释。她强调，我们需要设置护栏并确保质量保证，而不是盲目信任这些模型。

为提高模型准确性，她提出了三种方法：优化提示以调整输入模型的提示；提供额外的训练数据；将模型连接到外部数据源进行信息检索。信息检索将成为演示的重点，展示如何整合真实的企业数据。

为了实现高效的信息检索，维多利亚在堆栈中引入了一个新的协调层，从而在QA流程中实现了基础模型与数据源的连接。她重点关注了诸如Amazon CodeWhisperer等新兴开发者工具，这些工具能够在不使用实际代码的情况下，通过通俗易懂的英语进行编码。例如，开发人员可以用自然语言描述所需的功能，而CodeWhisperer将会生成相应的代码。了解了生成性人工智能领域的知识后，她进行了现场编码演示。

Linda在现场演示中，使用了来自亚马逊Kendra的企业数据来扩充基础模型，展示了构建一个高度准确的QA系统的过程。她概述了用于模型构建、训练、部署以及与SageMaker JumpStart中的生成模型集成的亚马逊SageMaker。因此，一位制造工程师可以快速部署一个用于检测生产线图像中缺陷的模型。

Linda还展示了亚马逊Kendra的50多个无代码连接器，用于从CSV文件和网站抓取器中摄取美国通货膨胀数据，并将其创建为可搜索的索引。此外，她还添加了一份包含100多页的年度报告PDF，以展示Kendra处理非结构化数据的能力。这使得一名财务分析师能够迅速为易于分析的盈利报告建立索引。通过使用通过SageMaker部署的拥有70亿参数的LLaMA基础模型端点，她展示了在没有提供任何企业数据背景的情况下查询可能失败的情况。

Linda随后使检索工作流程能够将来自Kendra的背景信息传递回LLaMA基础模型API，以便获得准确的响应。她仅用几行代码就回答了关于2022年8%的通货膨胀率和星巴克报告中的2022年开业437家商店等指标的问题。这展示了将相关企业数据扩充到生成性模型的强大能力。

维多利亚对Linda在各种数据源的利用表示赞赏。接下来，她接手介绍了另一种使用向量数据库和亚马逊Bedrock的替代方法，以解决不同的用例。为了解决之前给出的不正确亚马逊Bedrock解释问题，维多利亚决定使用正确的文档来修复模型的响应。

她选择了向量数据库作为解决方案，解释原因是其优化了相似性搜索，支持多种数据类型，并能处理高维数据。这种向量数据库有助于基因检测公司快速找到相似的DNA序列。她展示了更新后的架构，并提到了使用Pinecone向量数据库和LLM Chain在数据库和Amazon Bedrock间协调数据检索的过程。

维多利亚描述了Amazon Bedrock作为一种无状态API，无需管理部署基础设施，如SageMaker端点。移动应用开发者可在不配置任何后端服务器的情况下访问Bedrock API。Bedrock的实验环境允许在使用编程方式实现之前交互地比较模型，例如Anthropic、AI21和StabilityAI。

在她的演示中，维多利亚下载两份每份超过100页的Bedrock文档，并将每份文档分成每个1000个标记的片段以适应模型限制。使用具有8000个标记容量的Amazon TITAN模型，她将片段转换为1536维的向量嵌入并将其加载到Pinecone中。通过集成LLM Chain和Bedrock API，她展示了如何通过从Pinecone检索相关向量来修复Bedrock的解释并提供有用上下文。

总结两个演示，维多利亚概述了SageMaker和Bedrock访问基础模型间的差异，以及Kendra和向量数据库在实现信息检索方面的差别。她的结论是，根据使用情况与数据反向选择服务将是最佳组合。

在结束语中，琳达总结了三个关键收获。首先，基础模型存在局限性，需要通过技术如信息检索来提高准确性。其次，选择合适的应用场景将决定服务和数据源的选择。最后，企业数据的定制化是将通用应用与定制解决方案区分开的关键。她鼓励与会者开始使用SageMaker、Bedrock和CodeWhisperer等资源来开展项目。

维多利亚与琳达通过令人信服的表现展示了生成性人工智能的功能，给人们留下了深刻印象。他们有效地强调了亚马逊一系列服务如何通过积木般的方式组合在一起，以创建个性化的AI应用，从而从数据中提炼出见解。毫无疑问，与会者们受到了这一承诺的激励，并渴望运用这些工具来解决实际问题。

下面是一些演讲现场的精彩瞬间：

来自亚马逊云科技的开发者关系团队的专业人士邀请了与会者分享他们的产品反馈。