tag 标签: 数据可观测

相关博文
  • 热度 4
    2022-9-23 13:44
    1165 次阅读|
    0 个评论
    使用数据可观测性减少Confluent Cloud Kafka 运营成本的五种方式
    一、Kafka 服务类别 流式数据已成为企业构建和运营出色数据产品的必要条件,而 Apache Kafka 已成为实时流式传输的标准。 虽然采用 Kafka 变得至关重要,但在如何部署 Kafka 时,数据团队有多种选择。 Kafka 最初是安装在服务器上的开源软件。复杂且高度可配置的 Kafka 早期使用者亲身感受了管理 Kafka 集群的困难、耗时和昂贵。那些还在使用本地 Kafka 的用户正在采用诸如“数据可观测性平台”之类的解决方案,以赋予他们对环境的自动可见性和控制权。 除此之外,其他公司正在转向云计算,其中有很多选择,每一种都为 Kafka 提供不同级别的VIP服务。 为此,我们可以将 Kafka 服务分为两个基本类别 : 1.Kafka即服务 :用户的 Kafka 集群被提升并转移到托管服务提供商,如 AWS、Cloudera、Red Hat (IBM) 或 Azure,后者处理大部分基础设施管理,包括供应、配置和维护服务器。为了保障安全,每个用户的 Kafka 实例都托管在他们自己的物理服务器上,采用单租户架构。尽管在云中,用户仍然保留对其 Kafka 环境的大部分控制权——这意味着用户仍然有责任对 Kafka 环境进行管理。 2.完全托管的 Kafka :由Confluent Cloud首创。Confluent Cloud 几乎消除了运行 Kafka 的所有操作麻烦,同时提供了开发人员喜欢的即时可扩展性和简单可靠的可靠性。正如Confluent Cloud 发布者 Kai Waehner 自夸的那样:“如果 Kafka 软件是汽车引擎,那么托管 Kafka 或 Kafka-as-a-service 就是汽车,这使得 Confluent Cloud 相当于一辆自动驾驶汽车”。 二、Confluent Cloud可减少企业运营Kafka的成本 作为完全托管 Kafka 的标准承载者,Confluent Cloud 确实提供了用户想要的任何风格的 Kafka,包括本地、混合和托管即服务。Confluent Cloud 认识到,许多用户根本没有准备好从一个极端(Kafka 的完全手动控制和可定制性)跳到另一个极端(在无服务器 Confluent Cloud 中对 Kafka 的控制较少,甚至可见性更低)。 Kafka 的成本,除了硬件之外,还包括管理和开发应用程序的成本。因此,对于公司而言,仍有大量机会简化其 Kafka 环境并优化其成本提高性价比。 在Kafka-as-a-single-tenant-service(Kafka单租户服务)的情况下,用户的操作复杂性仍然很高。尽管托管服务提供商会自动执行任务,例如引入新的 Kafka 集群,但仍需要监控很多仪表板、做出部署决策、优化数据瓶颈、修复数据错误以及进行存储管理等。为了减轻运营负担并提高动态 Kafka 环境的性价比,本地和混合用户的连续数据可观测性可以使托管的 Kafka 用户从中获益。 完全托管的 Kafka 用户是否面临相同的运营成本?Confluent Cloud 回复说:“并不会。Confluent Cloud 的后端规模经济、近乎零的管理要求、即时和自动的用户弹性可以帮助用户节省巨额的总拥有成本 (TCO) 转化为巨大的总拥有成本 (TCO) 。从Forrester TEI 的2022报告可知,相较于自我管理和部署Kafka,使用Confluent Cloud可帮助企业在三年内节省 260 万美元”。 三、Confluent Cloud Kafka 用户面临的成本问题 Confluent的承诺也反映了Snowflake的—承诺其三年的投资回报率为2100万美元。低运维、高度可扩展的云数据仓库已被开发人员和数据驱动的公司所采纳。由于云数据仓具有敏捷性特征,可以大大加快企业产品上市时间,用户将“低运维”误认为是“无运维”。这是因为他们忽略了价值工程和云计算运营的基本原则,也忽略了运营监督,例如监控成本、设置成本护栏等。 在Snowflake 使用中有一个著名的案例,该案例错误地配置了一个长达 7 小时的代码测试,导致Snowflake收取用户72,000 美元的费用。同时,其他 Snowflake 用户发现成本优化不是自动的,仍然需要他们付出大量的努力和监督成本。 基于此,Snowflake 用户被迫尝试各种解决方案,从 Snowflake 的内置资源监视器到可视化的第三方仪表板和报告以及许多其他工具。然而,即使将这些工具拼凑在一起,也无法为用户提供持续的可见性、预测性和成本控制功能,更不用说数据可靠性和数据性能等其他应用了。 同样,在 Confluent Cloud 的“动态即用即付”收费模式中优化成本既不简单,也不会自动进行。流数据量可以瞬间飙升至每秒10 GB。要想监控和防止这种潜在的成本超支,非常不容易。虽然 Confluent Cloud Console 可以实时显示初步使用情况,但实际上,用户的成本将滞后6到24小时。 虽然 Confluent Cloud 使用户能够围绕数据性能问题创建实时触发器和警报,且不会造成成本超支。 但如果开发人员忘记关闭大容量测试流数据管道,或者采取保守的归档策略导致存储费用增加,这可能是Confluent Cloud将面临的问题 。同时,Confluent Cloud 用户在支付每月使用费前,不会注意到这个问题。 四、数据可观测性如何帮助用户减少Confluent Cloud Kafka运营成本 对于想要认真监控和管理其 Confluent Cloud 环境的用户,Confluent建议他们寻找第三方提供商,而像HK-Acceldata这样的企业数据可观测性平台就可以为其服务。 HK-Acceldata 通过 Confluent Cloud 的 API 获取成本和性能指标,通过自己的监控生成额外的分析,然后将两者结合起来以创建进一步的见解、警报和建议。下面介绍一下HK-Acceldata 帮助用户防止成本超支并优化成本的五种方式: 1)为 Confluent Cloud 数据管道的性能和使用情况提供持续可见性和警 报。在实时数据流下,处理、发送和存储的事件量会急剧增加,尤其是在 Confluent Cloud 的即时、多 GB 可扩展的情况下。HK-Acceldata的计算可观察性有助于监控可能造成的数据瓶颈以及导致进程崩溃的数据峰值。HK-Acceldata 还提供实时视图,帮助用户选择正确数量的分区和主题,以优化用户的性价比。 2)生产者-主题-沿袭可见性 。HK-Acceldata 的Kapxy工具可让 Confluent Cloud 用户进一步了解 Kafka 的三个关键组件——生产者、主题和消费者。因此,用户可以从端到端更精细地跟踪数据。通过深入了解数据的实际流动方式,用户可以准确计算管道、应用程序或企业各部门的使用情况和成本,不仅可以实现准确的成本退款、ROI 计算,还可以支持数据管道重用和其他价值工程工作。 使用 HK-Acceldata 跟踪 Confluent Cloud 中的数据路径 3)监控和防止消费者滞后 。Kafka中最大的潜在问题之一是摄取的数据与下游应用程序或使用者接收的数据存在差距。如果差距过大,那么存储在Kafka代理中的数据可能会在传输成功之前就自动过期。HK-Acceldata 提供高级别的可见性,可在用户的整个Confluent Cloud数据管道中查找潜在问题,例如找到离线和复制不足的分区、最大和最偏斜的主题、不同步的副本数量是否在增长以及滞后最多的消费者组等。用户也可以深入了解消费者组或查看单个事件,所有这些可见性都可以帮助用户防止成本滞后,不需要用户通过昂贵的计算或存储来解决这个问题。 HK-Acceldata 的 Kafka 仪表板上的图表有助于防止代价高昂的消费者滞后 4) 防止数据丢失 。如上所述,Consumer Lag和其他瓶颈不仅会直接增加用户的处理成本,还会导致数据丢失。这是因为用户可以控制 Kafka Brokers(服务器)存储数据的时间长度。如果数据瓶颈或延迟持续时间过长,则代理可能会在数据成功传输到消费者应用程序之前清除数据。HK-Acceldata 的监控仪表板可帮助用户诊断数据丢失的原因,而Kapxy等工具可以精确定位丢失的数据及其的位置。 5) 清理、验证和转换流数据 。将HK-Acceldata与Kafka和Confluent Cloud 管道一起使用,可以实时摄取、验证和转换事件以提高用户的数据质量和可靠性。同时,还减少了搜索和修复数据错误的时间,用户也不需要对有问题的数据管道和应用程序进行故障排除,这大大降低了企业的运营成本,投资回报率显著提升。 五、总结 上述企业数据可观测性平台HK-Acceldata 5个优势也有助于简化旧 Kafka 环境到 Confluent Cloud 的迁移过程。因为Confluent Cloud与本地或托管的单租户Kafka集群有很大不同,任何迁移对用户的环境而言都是从头开始,而不是简单的提升和转移。HK-Acceldata 的自动化数据准备和监控可以使迁移变得轻松且顺利,同时也可以调整资源以匹配工作区和 SLA 要求,从而平衡性能与成本。 总之,如果使用完全托管的 Confluent Cloud ,公司仍然需要对运营成本进行监督,而HK-Acceldata Data Observability for Kafka 解决方案可以很好的解决这一问题。Confluent Cloud 的用户可以使用HK-Acceldata等连续数据可观测性平台为其提供的额外可见性和监控,从而降低用户的总拥有成本(TCO)。 具体内容可以参考HK-Acceldata Data Observability for Kafka 解决方案:https://hongcloudtech.com/acceldata-for-kafka/
  • 热度 10
    2022-9-14 10:00
    1298 次阅读|
    0 个评论
    应用性能监测工具(APM)VS数据可观测平台
    一、什么是数据可观测性? 数据可观测性是一种数据操作的方法和解决方案,可以实时监控、检测、预测、预防和解决基础架构、数据和应用程序层中的问题。 企业应用程序的可观察性越高,就越容易确定影响其问题的根本原因。随着问题的确定和修复,应用程序变得更加可靠和高效。 二、什么是APM? APM就是应用性能监测,APM工具是一种万能的解决方案,用于监控企业基础架构中的应用层。APM通过输出日志和跟踪应用程序的运行状况,并向数据团队发出有关问题、瓶颈和停机问题的警报。 APM有两个显著特点 : *APM工具首先采用了可观察性原则,使应用层的输出更加可观察。 *APM可以识别哪个 API 服务请求失败,并且可以突出显示计算资源被锁定的位置。 除了上述功能外, APM也有显著的缺点 : *APM 仅限于应用层,APM 工具不具备监控数据和基础设施层所需的功能。 *APM 工具无法验证数据管道的质量。由于 APM 通常仅限于跟踪采样,因此它们无法分析完整的数据集,难以避免数据倾斜并分析原因,因此数据团队难以通过APM识别和修复数据的根本问题。 三、企业为什么需要数据可观测平台? 对于企业而言,即便有APM 工具,也应该选择数据可观测平台。与仅监控应用层的 APM 工具不同,数据可观测平台将监控功能一直延伸到数据和基础设施层。数据可观测性改进了对数据管道的控制,创建了更好的SLA,并为数据团队提供了更好的业务决策洞察力。 数据可观测性解决方案在以下方面比 APM 工具更具优势 : *提供更好的数据层可观察性,使DataOps团队可以更好地控制数据管道。 *提供改进的基础设施层可观察性,使ITOps团队可以更好地控制基础设施资源。 数据可观测平台对企业的作用 : *ITOps团队可以在APM无法提供的粒度级别上监控关键基础设施层指标,例如内存可用性、CPU存储消耗和集群节点状态,数据可观测平台可以比其他解决方案更快地排除和解决数据拥塞和中断问题。 *DataOps团队可以通过自动检查功能来检查数据传输的准确性、完整性和一致性来确保高质量的数据标准,从而建立更健康的数据管道。 *数据工程师可以自动收集数千个管道事件,将它们关联起来以识别异常或峰值,并使用这些结果来预测、预防、排除故障和修复数据问题。 *业务领导者可以与BI分析师合作,创建准确的容量估计以及更明智的SLA,以满足业务目标的需求。 总体而言,数据可观测性有助于企业的数据团队在数据问题发生之前进行预防、识别和修复,这对于无法承受数据中断或停机时间的企业而言非常关键。 四、APM工具 VS数据可观测平台 DataOps团队应选择满足其业务范围、规模、预算、可用性、可靠性和自动化需求的解决方案。本文选择了六个参数来对比常见的APM工具和数据可观测性解决方案,为企业选择APM还是数据可观测方案提供参考: 从上述对比看,使用数据可观测平台具有如下优点 : *监控范围更广 :数据可观测平台使企业的基础架构层、数据层和应用程序层更易于观察。可以帮助企业优化资源、维护有效的数据管道并做出更好的数据驱动型业务决策。还可以帮助企业观察应用程序使用的所有服务、API和SDK。 *可扩展性高 :通过数据可观测平台可以使用微服务为分布式企业应用程序提供服务,即便每天具有2000亿次展示的规模也可以做到。 *高复杂性 :数据可观测平台可以为在云原生和混合基础架构上运行的企业应用程序提供服务,帮助企业深入了解其基础架构、数据层和应用程序层。 *可靠性高 :数据可观测平台可以提高数据管道的质量和可靠性,允许分析完整的数据集,而不会出现任何数据偏差,从而识别和修复根本原因问题。 *可用性高 :与企业APM类似,像HK-Acceldata等高端数据可观测平台还可以为企业提供一流的客户支持服务,帮助企业的数据团队充分利用数据管道。 *提供AI自动化 :数据可观测平台支持AI自动化,可以过滤掉数TB的噪音,还可以在问题发生之前就预防问题,而不是在问题出现时才想如何解决问题。这样企业的团队就可以将更多的时间花在优化和扩展应用程序上。 五、选择数据可观测性平台比APM工具更好 如果企业运行使用了Spark、Kafka或Kubernetes的关键任务云原生或混合企业应用程序,则企业将无法承受任何数据中断或停机时间。此外,数据分析需要更健康的数据管道,如果让垃圾数据进入,企业只会得到垃圾分析。为了解决这两个问题,企业需要一个完整的数据可观测平台(例如HK-Acceldata)来分析完整的数据集、避免数据倾斜、深入挖掘必要的信息以识别根本原因问题并改善数据管道的健康状况。 使用像HK-Acceldata这样的数据可观测平台,企业可以扩展数据功能 : *更好地控制数据管道。 *提高数据集的质量和健康度。 *分析完整的数据,避免偏差。 同时,还将扩展企业的业务能力: *利用AI自动化构建模型,帮助消除噪音。 *识别根本原因问题,获得实时洞察,并做出数据驱动的决策。 *通过优化资源使用和避免手动编码/配置更改来降低成本。