导语: 本文将探讨价值工程和数据成本优化对现代数据运营的意义 。本文解释过去十年数据领域发生了哪些变化,为什么数据实践在今天变得如此重要。最后讨论中立的多维数据可观测性平台如何成为企业部署价值工程最佳实践的关键推动因素并实现数据成本优化。 一、数据驱动的商业时代 1.良好的管理需要良好的数据 良好的管理需要良好的数据 ,这一理念在 21 世纪变得更加重要。首先, 我们正在进入数据驱动的商业时代 。在 Uber、Airbnb、Facebook 和其他公司的引领下,公司正在以关键任务的方式利用运营数据来改变他们的业务并扰乱市场。 2.数据对业务决策至关重要 业务的速度和数据的创建速度都在加快 。这些变化产生的结果是,现在比以往任何时候都更加实时或接近实时地做出业务决策。为了保持这种业务运营的步伐,企业需要持续访问有效且准确的实时数据,并与其他有意义的数据进行协调,以使其可用于业务决策。 在数据团队中,产生了两个巨大的影响 。首先,当公司变成数据驱动时,数据就成为了公司的命脉 。它贯穿企业所有的关键业务流程。从这个角度来看,如何从数据投资中获得最大价值以及优化所有与数据相关的成本——包括 存储、传输、管理、分析、安全、数据质量和可靠性 等,会对公司产生巨大且直接的影响。 3.传统APM已落后 企业不能依赖 20 世纪的 IT 和数据监控技术来管理和优化 21 世纪的数据使用和成本。它也不能依赖以应用程序为中心的可观测性解决方案,例如 将数据视为事后诸葛亮的应用程序性能监控 (APM) 。 企业需要一个集成了 AI 的整体平台,无论数据在哪里运营和传播,该平台都可以 实时跟踪、管理和优化您的数据 。想要提供这些功能并确保所有重要数据管道健康,企业需要一个数据可观测性平台。 二、现代数据的价值工程、FinOps 和成本优化 1.价值工程 从广义上讲,价值工程是关于构建产品或服务以获得最大“价值”,定义为相对于成本(以美元、工时或其他指标)的功能(或性能或输出) 。在软件和 IT 中,价值工程已经演变成一种类似于精益和敏捷开发的整体方法,不断衡量成本和收益以实现持续改进。 价值工程的数据驱动具有严谨性特征,加快了项目开发时间,能够随着条件的变化而快速调整并防止范围蔓延从而产生更糟的结果。这可确保创新为内部利益相关者和外部客户带来价值。 数据驱动的价值工程方法与当今数据驱动的业务系统相协调。根据定义,数据驱动的公司无法承受任何数据停机时间。通过收集有关性能、停机时间和成本的持续数据, 价值工程旨在最大限度地减少停机时间,或者通过使用机器学习和预测分析来防止它发生 。 2.数据成本优化 数据成本优化类似于价值工程,但关注范围更窄。 价值工程的从业者有时会用更模糊、抽象的术语来定义性能、成本和价值的变量,而数据成本优化则可以归结为美元和美分:花费的美元、获得的收入和销售额,以及实际的投资回报率 。 因此,数据成本优化不应该只是效率和成本削减。实践得当的话,数据成本优化应该是攻守兼备。换句话说, 数据成本优化需要最大限度地提高数据性能、减少因瓶颈或质量问题导致的数据停机时间,同时简化数据基础架构 。 3.FinOps 与数据成本优化密切相关的是FinOps 的现代学科 。FinOps 的出现是为了应对控制成本和最大化云数据投资回报率的艰巨挑战 。云数据成本是与运营相关的支出,例如存储和处理费用。这些成本可能因数量、一天中的时间以及组织控制范围内外的其他因素而有很大差异。这使得它们比传统的数据投资更难管理和预测,例如购买服务器硬件、软件许可证、存储磁盘等,因为这些投资可以简单地在可预测的生命周期内摊销。 数据成本优化从业者可以 360 度全方位了解公司的数据成本,而 FinOps 专家则希望将细节归零,以实现按部门对数据管道和存储成本进行准确的扣款。这种细粒度的观点很重要,因为它有助于创建一种直接支持数据成本优化宏观目标的问责和数据重用文化。 三、FinOps和数据管道之间的关系 以下是工作中的数据成本优化和 FinOps 方法的示例: 想象一下,一个产品团队想要为公司的购物网站创建一个 实时推荐引擎 。建立并交付该实时推荐引擎,必须基于客户最近查看的内容。因此,产品团队需要与数据工程师合作,计算出数据应用程序查询云中实时分析数据库的持续成本,该数据库不断地从多个来源获取数据,从站点的产品库存到客户点击流。然后,该数据应用程序必须在几毫秒内向客户提供建议。 这是一个复杂的数据管道,不仅需要花费大量的精力和金钱来构建,而且还会因销售、假期等而产生动态持续的成本和收入。产品团队和数据工程师将跟踪推荐引擎产生的销售额和基础数据管道的持续成本,以确定他们的投资回报率。他们还可能执行 A/B 测试,以查看通过在数据管道上投入更多资金来加速引擎的结果是否会带来更多的 ROI。换句话说,使用 FinOps 和数据成本优化,他们可以确定项目是否正在提供最大的收入和价值,或者更多的投资是否可以带来更多的收益。 但是, 要了解公司的数据基础架构以进行这些计算,以及在需要时进行更改的能力,公司的 DataOps 团队需要拥有正确的平台 。 四、随机的敏捷行为问题 除了计算运营费用和产品价值之外,过去十年云计算的兴起还有另一个副作用。业务部门对以命令和控制为中心的 IT 部门感到沮丧,他们自己急于部署更易于使用和扩展的云服务。 销售和营销团队迷上了 Salesforce,开发人员将应用程序和存储迁移到 AWS,数据工程师接受了云数据仓库 。 随着时间的推移,这种随机的敏捷行为成本会逐渐累加起来。在难以找到的云存储库中,存在着猖獗且昂贵的数据复制。 有时这些是特定团队拥有的数据孤岛,其他人无法访问。有时,它们是被遗忘的“暗数据”池 ,这些数据未被使用,但每个月仍然让组织付出代价。无论哪种方式,都是一种流行病, 预计每个公司存储的数据中有 60%-73% 都未使用 。 数据管道不受管理的增长加剧了 数据重复问题 ,同时也增加了 数据错误、过时数据集和数据可靠性问题 的数量。 数据通过数据管道传输的次数越多,转换、聚合、错误标记、损坏等的次数就越多 。这会降低数据的信任度和有用性,并为数据工程师带来昂贵的清理工作。 举一个例子。想象一下,一家公司使用精心设计的数据管道构建了一个 ML 模型 ,这让其数据工程师花费了许多工作时间。第二个团队想要使用几乎相同的数据构建应用程序,通过一些增量工作,数据工程师可以使原始管道同时服务于两个应用程序。 如果缺乏数据发现工具意味着没有人知道原始管道和拟议管道的相似之处怎么办?首先,第二个团队可能会因为之前重复使用质量较差的数据集的经验而持怀疑态度。其次,公司可能缺乏在两个业务团队之间准确跟踪和划分数据管道成本的工具。最终结果是,第二个团队坚持从头开始构建一个全新的管道。 五、解决方案:中立的多维数据可观测性 中立的多维数据可观测性平台提供了上述所有缺失的功能。这为数据工程师提供了 实时可见性、智能和控制能力 ,以建立一种价值工程和数据重用文化, 不仅可以优化持续成本,还可以优化投资回报率 。 HK-Acceldata 就是这样一个中立的多维数据可观测性平台,其包括 HK-Acceldata Torch 、HK-Acceldata Pulse、HK-Acceldata Flow,能够提高数据可靠性、快速扩展并降低所有数据管道的成本。 1.HK-Acceldata Torch Torch是一个数据质量和可靠性解决方案,可提供自动化的持续数据发现和编 目。Torch确保了所有数据集无论存储在何处,都可以通过集中库存对系统中的所有用户可见,可 以防止存储成本高昂的数据孤岛的增长、产生信任和数据质量问题以及安全风险 。 Torch 在 主动消除重复和冗余数据方面 更进一步。它使用 机器学习 来自动识别数据集和标记数据。这些元数据标签有助于描述数据的新鲜度、沿袭、与其他数据集的依赖关系、使用位置等。这使数据工程师能够找到旧的、未使用的、漂移的数据集,并消除它们或将它们转移到更便宜的冷存储中,同时提高剩余数据集的数据质量。 Torch 还使潜在用户能够轻松筛选并为他们的应用程序找到最佳数据集,并让他们相信他们的选择不会导致意外结果或错误。Torch 创造了一种高效和重用文化,减少了对新数据集和数据管道的需求,从而减少了数据工程师的工作量。 Torch 的数据分析功能还可以帮助公司确保将数据无错误地迁移到云端。最新版本的 HK-Acceldata Torch 对上述功能进行了改进。 2.HK-Acceldata Pulse HK-Acceldata Pulse提供对数据集和数据管道的实时性能跟踪 ,可以分析检查当前可能存在的异常情况,也可以预测未来问题的模式。这有助于公司 修复和防止意外中断或减速 ,这些中断或减速可能会使数据驱动的公司损失数百万美元的销售额。它还可以 帮助公司在满足客户 SLA 的同时,调整其基础架构和云成本以节省数百万美元 。 3.HK-Acceldata Flow HK-Acceldata Pulse 和HK-Acceldata Flow中的 细粒度实时跟踪还允许公司跟踪和预测其数据运营成本 ,不仅针对单个管道,还针对单个应用程序或用户。这可以准确地向不同部门和用户收取费用,并允许公司计算特定数据驱动的应用程序或业务流程产生的价值或投资回报率。Flow 可以在遵守关键 SLA的同时 ,减少数据工程师进行自动化操作管理数的千个数据管道,能够进一步降低了数据成本 。 管理数据及其成本和收益对于数据驱动的组织来说至关重要。为了解决上述问题,像HK-Acceldata这样的多维数据可观测性平台是为企业提供实时数据、可见性和控制的最佳解决方案。