生成式人工智能改变了科技行业,它引入了新的数据风险,例如通过大型语言模型 (LLM) 泄露敏感数据,并推动监管机构和政府的要求增加。为了成功驾驭这种环境,组织必须了解数据管理的核心原则。并确保他们使用合理的方法用企业/非公开数据增强大型语言模型。
一个好的起点是更新组织管理数据的方式,特别是在生成式 AI 解决方案中使用数据的方式。例如:
- 验证并创建数据保护功能:数据平台必须为更高级别的保护和监控做好准备。这不仅需要加密、匿名化和标记化等传统功能,还需要创建使用机器学习自动对数据进行分类(敏感度、分类法对齐)的功能。数据发现和编目工具可以提供帮助,但应加以增强,以使分类具体到组织对其自身数据的理解。这使组织能够有效地应用新政策,并弥合数据概念理解与数据解决方案实施的现实之间的差距。
- 改善控制、审计和监督:数据访问、使用和第三方与企业数据的互动需要对现有解决方案进行新的设计。例如,捕获确保数据授权使用所需的部分需求。但公司需要完整的审计跟踪和监控系统。这是为了跟踪数据的使用方式、数据修改时间以及是否通过第三方交互共享数据,无论是针对新一代人工智能还是非新一代人工智能解决方案。仅通过限制对数据的访问来控制数据已不够,我们还应该跟踪在分析和运营解决方案中访问和应用数据的用例。基础设施和数据治理团队应开发对不当访问和使用的自动警报和报告(通过查询分析、数据泄露和网络移动来衡量),并定期审查以主动确保合规性。
- 为人工智能准备数据:与传统的数据管理模式和技能不同,需要新的学科来确保数据的质量、准确性和相关性,以用于训练和增强人工智能使用的语言模型。随着向量数据库在人工智能领域越来越普遍,必须加强数据治理以考虑非传统数据管理平台。这是为了确保将相同的治理实践应用于这些新的架构组件。数据沿袭变得更加重要,因为监管机构要求在模型中提供“可解释性”。
企业数据通常复杂、多样且分散在各种存储库中,因此很难集成到新一代人工智能解决方案中。这种复杂性因需要确保法规遵从性、降低风险以及解决数据集成和检索增强生成 (RAG) 模式中的技能差距而加剧。此外,在新一代人工智能解决方案的设计和部署中,数据通常是事后才考虑的,这导致效率低下和不一致。
释放企业数据在生成 AI 中的全部潜力
在 IBM,我们已经开发出一种解决这些数据挑战的方法。IBM gen AI 数据提取工厂是一种托管服务,旨在解决 AI 的“数据问题”并释放企业数据对 gen AI 的全部潜力。我们预定义的架构和代码蓝图可以作为托管服务部署,简化并加速将企业数据集成到 gen AI 解决方案中的过程。我们在处理这个问题时会考虑数据管理,从一开始就为治理、风险和合规性准备数据。
我们的核心能力包括:
- 可扩展的数据提取:可重复使用的服务,用于跨代 AI 用例和解决方案扩展数据提取和 RAG,并具有优化的分块和嵌入模式。
- 监管与合规:为符合当前和未来法规的生成人工智能使用而准备的数据,帮助企业满足以生成人工智能为重点的市场法规的合规性要求。
- 数据隐私管理:长文本一旦发现即可匿名化,降低风险并确保数据隐私。
该服务与 AI 和数据平台无关,可在任何地方部署,并可根据客户环境和用例进行定制。通过使用 IBM® gen AI 数据提取工厂,企业可以实现几个关键成果,包括:
- 减少数据集成所花费的时间:托管服务可减少解决 AI“数据问题”所需的时间和精力。例如,使用可重复的流程对数据进行“分块”和“嵌入”,这样就不需要为每个新一代 AI 用例进行开发。
- 合规数据使用:帮助遵守针对企业部署的新一代人工智能应用的数据使用法规。例如,确保以 RAG 模式获取的数据已获准用于新一代人工智能解决方案的企业使用。
- 降低风险:降低与人工智能解决方案中使用的数据相关的风险。例如,提供透明的结果,说明从模型中产生输出的数据来源,可以降低模型风险,并减少向监管机构证明信息来源的时间。
- 一致且可重复的结果:从 LLM 和 gen AI 解决方案中提供一致且可重复的结果。例如,捕获谱系并比较一段时间内的输出(即生成的数据),以通过 ROUGE 和 BLEU 等标准指标报告一致性。
应对复杂的数据风险需要跨职能专业知识。IBM Consulting® 团队由前监管人员、行业领导者和技术专家组成,他们凭借自己的咨询服务和解决方案,能够解决这一问题。
请查看我们以下功能的更多信息,如有任何其他问题,请通过 [email protected] 与我联系。
详细了解人工智能治理如何帮助应对数据风险
本文是否有帮助?
是的不