到 2026 年,超过 80% 的企业将部署 AI API 或生成式 AI 应用程序。AI 模型及其训练和微调所依据的数据可以将应用程序从通用提升到有影响力的水平,为客户和企业提供切实的价值。
例如,Master 的生成式 AI 驱动高尔夫球迷体验使用实时和历史数据为超过 20,000 个视频片段提供见解和评论。数据的质量和数量可以决定 AI 的成功与否,有效利用和管理数据的组织将获得最大的收益。但事情没那么简单。数据的数量和种类都在激增。
根据国际数据公司 (IDC) 的数据,到 2025 年,存储的数据将增长 250%跨本地和跨云平台。增长带来了复杂性。多种数据应用程序和格式使组织更难以有效地访问、治理、管理和使用所有数据用于 AI。领导者必须重新考虑使用令人望而却步的本地方法和单一数据生态系统,同时降低成本并确保适当的数据治理和跨不同数据源自助访问更多数据。
利用技术、人员和流程扩展数据和人工智能
要让数据成为 AI 的差异化因素,需要在技术、人员和流程之间取得平衡。要扩展 AI 用例,您首先需要了解数据的战略目标,这些目标可能因生成式 AI 而发生变化。将您的数据策略与前瞻性架构相结合,同时考虑现有技术投资、治理和内置自主管理。借助 AI 来帮助自动执行数据入职、数据分类、组织和标记等任务。这将要求您改进数据管理流程并更新学习路径。
构建开放可信的数据基础
组织必须专注于构建开放且可信的数据基础,以便访问用于 AI 的可信数据。开放正在创建基于开放且可互操作的功能(涵盖混合云部署、数据存储、数据格式、查询引擎、治理和元数据)的数据存储、管理、集成和访问基础。这可以更轻松地与现有技术投资集成,同时消除数据孤岛并加速数据驱动的转型。
创建可信数据基础可实现高质量、可靠、安全且受管控的数据和元数据管理,以便将其交付给分析和 AI 应用程序,同时满足数据隐私和法规遵从性需求。以下四个组件有助于构建开放且可信的数据基础。
1. 将数据基础设施现代化为应用程序、分析和人工智能的混合云
采用多云和混合云策略正成为强制性要求,这就要求数据库能够支持跨混合云的灵活部署。Gartner 预测,95% 的新数字计划将在云原生平台上开发,这对于需要大量数据存储和可扩展性的 AI 技术至关重要。
2. 利用正确的数据库和开放数据湖战略为数据驱动的应用程序、分析和人工智能提供支持
为了存储和分析数据,您必须使用 为适当的工作负载提供适当的数据库、数据类型和价格性能。这可确保您拥有一个可随数据需求增长的数据基础,无论您的数据位于何处。您的数据策略应包含采用开放和集成组件设计的数据库,从而实现数据平台内高级分析和 AI 应用程序的无缝统一和数据访问。这使您的组织能够提取有价值的见解并推动明智的决策。
例如,组织要求 高性能、安全、有弹性 交易数据库 管理其最关键的运营数据。借助混合云可用性,组织可以使用其数据库来现代化旧式应用程序、构建新的云原生应用程序以及为 AI 助手和企业应用程序提供支持。
随着数据类型和应用程序的发展,你可能需要专门的 NoSQL 数据库来处理 多样化的数据结构和特定的应用要求。 这些包括时间序列、文档、消息传递、键值、全文搜索和内存数据库,可满足各种需求,例如物联网、内容管理和地理空间应用。
上电 人工智能和分析工作负载 在您的事务数据库和专用数据库中,您必须确保它们能够与开放数据湖架构无缝集成,而无需重复或额外的提取、转换、加载 (ETL) 流程。借助开放数据湖,您可以访问数据所在的任何位置的单一数据副本。
开放数据湖库可处理多种开放格式(例如通过云对象存储的 Apache Iceberg),并结合来自混合云中各种来源和现有存储库的数据。性价比最高的数据湖库还能够通过多个开源查询引擎实现存储和计算分离,并与其他分析引擎集成,以优化工作负载,实现卓越的性价比。
这包括与数据仓库引擎的集成,现在必须在实时数据处理和决策与经济高效的对象存储、开源技术和共享元数据层之间取得平衡,以便与数据湖无缝共享数据。借助开放数据湖架构,您现在可以优化数据仓库工作负载以实现性价比,并通过更好的 AI 性能和治理来现代化传统数据湖。
企业可能还会在大型机中存储数 PB 甚至 EB 的宝贵专有数据,需要解锁这些数据才能获得新见解和 ML/AI 模型。借助支持大型机和 Iceberg 等开放格式之间的数据同步的开放数据湖,组织可以更好地识别欺诈行为、了解组成行为并构建预测性 AI 模型,以了解、预测和影响高级业务成果。
建造前 值得信赖的生成式人工智能 对于您的业务,您需要正确的数据架构来准备这些分散的数据并将其转换为高质量数据。对于生成式 AI,正确的数据基础可能包括各种知识存储,包括用于对话的 NoSQL 数据库、用于上下文数据的事务数据库、用于访问和准备 AI 和分析数据的数据湖架构以及用于存储和检索增强生成 (RAG) 嵌入的向量嵌入功能。共享元数据层、用于对数据和数据沿袭进行分类的治理可实现可信的 AI 输出。
3. 建立信任基础:企业 AI 的数据质量和治理
随着组织越来越依赖人工智能 (AI) 来推动关键决策,数据质量和治理的重要性怎么强调也不为过。根据 Gartner 的数据,到 2025 年,预计 30% 的生成式 AI 项目将因数据质量差、风险控制不足、成本不断上升或业务价值不明确而被放弃。使用劣质数据的后果是深远的,包括客户信任度下降、监管不合规以及财务和声誉受损。
有效的数据质量管理对于降低这些风险至关重要。精心设计的数据架构策略对于实现这一目标至关重要。数据结构为数据领导者提供了一个强大的框架,用于分析数据、设计和应用数据质量规则、发现数据质量违规、清理数据和扩充数据。这种方法可确保数据质量计划实现准确性、可访问性、及时性和相关性。
此外,数据结构可通过数据可观察性功能持续监控数据质量水平,使组织能够在数据问题升级为更大问题之前发现它们。这种数据流透明度还使数据和 AI 领导者能够发现潜在问题,确保使用正确的数据进行决策。
通过优先考虑数据质量和治理,组织可以建立对其 AI 系统的信任,最大限度地降低风险并最大限度地提高数据的价值。必须认识到,数据质量不仅仅是一个技术问题,而是一项需要关注和投资的关键业务要务。通过采用正确的数据架构策略,组织可以充分发挥其 AI 计划的潜力并推动业务成功。
4. 管理和提供人工智能数据
数据是人工智能的基础,从使用正确的数据集构建人工智能模型,到使用行业特定的企业数据调整人工智能模型,再到使用矢量化嵌入构建 RAG 人工智能应用程序(包括聊天机器人、个性化推荐系统和图像相似性搜索应用程序)。
可信且受管控的数据对于确保 AI 的准确性、相关性和精确性至关重要。为了充分发挥数据对 AI 的价值,企业必须能够驾驭其复杂的 IT 环境,打破数据孤岛,统一数据,并为 AI 模型和应用程序准备和提供可信且受管控的数据。
借助由开放格式支持的开放数据湖屋架构来连接和访问您现有数据资产(包括数据仓库、数据湖和大型机环境)中的关键数据,您可以使用企业数据的单一副本来构建和调整 AI 模型和应用程序。
通过语义层,您可以生成数据丰富内容,使客户端能够通过语义搜索以自然语言在您的数据资产中查找和理解以前隐秘的、有效结构化的数据,从而加速数据发现并更快地解锁数据洞察,无需 SQL。
使用直接嵌入在 Lakehouse 中的矢量数据库,您可以无缝地将数据存储和查询为 RAG 用例的矢量化嵌入,从而提高 AI 输出的相关性和准确性。
利用数据产品、人工智能助手、人工智能应用程序和商业智能构建和创造价值
有了开放且值得信赖的数据基础,您就可以充分发挥数据的潜力并从中创造价值。这可以通过构建由使用您值得信赖的数据的 AI 和数据平台提供支持的数据产品、AI 助手、AI 应用程序和商业智能解决方案来实现。
例如,数据产品是可重复使用的打包数据资产,可用于推动业务价值,例如预测模型、数据可视化或数据 API。人工智能助手、应用程序和人工智能驱动的商业智能可以通过提供见解、建议和预测来帮助用户做出更好的决策。有了正确的数据,您就可以创建一个推动业务价值和创新的数据驱动型组织。
要开始为 AI 构建数据基础,请探索使用 IBM® 数据库、watsonx.data™ 和数据结构的数据管理解决方案,并使用可信数据扩展 AI。
探索我们的解决方案,了解如何设计和构建您的理想数据资产
本文是否有帮助?
是的不