tag 标签: 数据处理

相关帖子
相关博文
  • 2025-1-24 11:36
    0 个评论
    康谋方案 | 本地匿名化解决方案:隐私保护、自主掌控和高效运行!
    数据隐私与安全 在当今数字化时代占据着举足轻重的地位。在应对数据保护法的复杂要求和网络攻击的威胁时,大多数企业都面临着 重重挑战 ,因此诸多企业对 可靠、可扩展且安全的数据管理解决方案 的需求愈发迫切。 正是在这一背景下,康谋精心打造了 本地匿名化一站式解决方案 ,该方案将 隐私和安全 作为其核心设计原则,旨在助力企业以信心和效率从容应对当今复杂多变的 隐私和安全需求 。 一、本地匿名化解决方案 该解决方案巧妙地利用 Terraform部署技术 ,能够在自有集群中实现灵活的 自动扩展 。无论数据处理需求是在 多个服务器的GPU和CPU上 运行,还是涉及到 复杂的数据架构, 系统都能确保在部署后的 第一时间 进行自动扩展。这一特性不仅确保了数据处理的 高吞吐量 ,而且提供了高效管理 跨多样基础设施 的复杂数据的途径。 二、方案优势 1、隐私与安全保护 本地部署 为处理敏感数据提供了最为 安全且合规 的环境。通过在用户自己的基础设施中 托管匿名化处理过程 ,用户可以全 面掌控数据 ,确保严格遵守最严格的数据保护法规。 无论是需要持续处理小批量数据,还是偶尔处理海量数据,该解决方案都能 迅速响应 ,根据需求 动态扩展 到 数百台GPU和CPU机器 ,或在不必要时 迅速缩减 ,以 有效控制成本 。此外,方案还支持许多平台上的Spot Instance,为灵活资源分配提供更多选择。 2、灵活性与控制力 本地匿名化解决方案与数据管理和处理流程 紧密集成 ,可以提供无与伦比的灵活性。用户可以 自由配置资源 ,并根据需要授予不同业务部门访问权限。 这种 高度独立且动态 的运营模式,助力更加 灵活多变 的数据处理能力,从而满足 不同场景下的需求。 3、离线解决方案 本方案还提供了一种 独特的离线解决方案 , 无需与外部服务器持续通信 ,这一特性不仅提升了安全性,而且确保在最严格的隐私和合规要求下仍能稳定进行各种操作。比如,即使在网络受限或敏感信息不能外泄的场景下,也能顺利完成数据处理任务。 三、应用案例 本地匿名化解决方案具备 云无关性 ,以应对具备 多样性的客户基础设施 。无论用户的系统托管在亚马逊网络服务(AWS)、谷歌云、阿里云还是 其他任何云平台上 ,本平台都能 无缝集成 ,提供同样卓越的服务和可扩展性。 这种 广泛的兼容性 让用户的数据处理更加灵活便捷, 无需担心因平台限制而影响部署。 本地匿名化解决方案已被 欧洲多个行业领导者 广泛采用,如 CARIAD、大众(VW) 和 德国铁路(Deutsche Bahn) 等。客户们通过使用本地匿名化解决方案,成功地在 短时间内完成了数千小时视频的匿名化处理 ,验证了平台处理 庞大数据集 的卓越能力和高效性。 四、总结 综上所述, 本地匿名化解决方案 为企业的数据管理、安全保障和利用带来了革命性的变化。通过提供 可扩展、安全且高效 的平台,该方案能够确保企业能够全面 遵守数据保护法规 ,同时 提升运营灵活性 ,并优化 运营效率, 为您的业务发展奠定坚实的基础。
  • 2025-1-17 11:38
    198 次阅读|
    0 个评论
    深度自然匿名化VS隐私保护与视觉完整性并存的未来!
    在科技迅速发展的时代, 保护个人隐私 的需求日益增长, 有效匿名化技术 的重要性不容忽视。无论是针对敏感的图像、视频,还是数据,在 隐私保护与保持视觉完整性 之间取得平衡至关重要。虽然模糊化一直是匿名化的常用选择,但一种更复杂、更强大的方法—— 深度自然匿名化(DNAT) ——已经成为一种更优的替代方案。 1、保留上下文信息 (1)模糊技术的局限: 模糊处理的主要缺点之一是 上下文信息的丢失 。当图像或视频严重模糊时,当图像或视频被严重模糊化时,重要的视觉线索和细节可能会 被扭曲 或 完全不可辨认 。 (2)DNAT的优势: DNAT利用先进的算法, 有选择性地修改 图像或视频中的特定元素,同时保留整体上下文。例如,通过 brighter AI的DNAT 技术在匿名化人脸时,公司可以 保留关键属性 ,如年龄、情感、视线方向、种族和年龄信息。这确保了匿名化内容仍然具有可理解性,并保持其 原始的视觉完整性 。 2、真实且美观的效果 (1)模糊技术的局限 :模糊化通常会导致 粗糙且不自然的外观 ,从而影响内容的理解和用户体验。 (2)DNAT的优势: DNAT借助深度学习技术,能够生成更加 真实且美观 的匿名化内容。通过分析原始数据并在大型数据集上进行训练,该算法学会模拟图像或视频中的自然变化,生成的匿名化结果能够 与周围环境无缝融合 。这种真实性的效果确保了匿名化内容 不会具有误导性 。 3、增强隐私保护 (1)模糊技术的局限: 尽管模糊化可以提供基本的隐私保护,但面对先进的图像还原技术可能并不足够。有经验的人员 可以使用去模糊算法或其他工具逆向处理,恢复敏感信息。 (2) DNAT的优势: DNAT显著提高了逆向匿名化的难度。通过以更复杂和细致的方式处理内容,深度学习模型提供了更高水平的隐私保护,确保 原始信息无法轻易恢复。 4、可扩展性和自动化 (1)模糊技术的局限: 模糊化处理可能是一个 耗时的过程 ,特别是在处理大型数据集时。为视频的每一帧或多张图像逐一应用和调整模糊效果所需的手动操作 既繁琐又不切实际。 (2)DNAT的优势: DNAT则可以实现这一过程的 自动化 。一旦模型完成训练,它便能够 高效地匿名化海量数据 ,使其在需要大规模匿名化的场景中更具 可扩展性和成本效益 。 5、适应性和可定制性 (1)模糊技术的局限性: 模糊化技术通常会对整个图像或视频应用统一程度的匿名化 ,而不考虑具体的隐私需求。 (2)DNAT的优势: DNAT则提供了更高的适应性和可定制性。模型可以根据不同的隐私需求进行微调,从而实现对图像或视频中特定区域或对象的 选择性匿名化。 这种灵活性使得匿名化过程能够得到精确控制,并确保隐私问题得到有效解决。 6、展望未来 (1)模糊技术的局限性: 模糊化会删除数据,在需求出现时仅能 提供极少可用数据。 (2)DNAT的优势: 由于能够保留语义分割,DNAT通常是公司选择的匿名化技术,这使其成为 适合驾驶分析和机器学习 的匿名化方法。因此,它已成为依赖分析和机器学习的企业选择 的匿名化解决方案 。我们坚信未来准备的重要性,并优先选择DNAT而非其他匿名化技术。
  • 2025-1-2 14:45
    117 次阅读|
    0 个评论
    直面应对ADAS/AD海量数据处理挑战!
    随着软件定义汽车的发展,车辆生成的数据量也以前所未有的速度 不断增加 。这些数据包含广泛的信息,包括传感器数据、遥测数据、诊断数据等。在开发过程中, 有效处理这些数据并从中获得见解 至关重要。 对于原始设备制造商(OEM)和汽车一级供应商(Tier 1)来说,是否 自主构建 和 维护数据处理流程 是一个至关重要的考虑因素。 数据处理流程 是应对当下软件定义汽车所产生的海量数据的基础组件。 一、问题背景 在 AWS 等云平台 上为高级驾驶辅助系统 (ADAS) 和自动驾驶 (AD) 数据构建鲁棒的数据处理流程,通常需要全面了解各种服务及其集成。您可能使用的特定服务可能取决于 应用程序的要求、数据源和处理需求 。 为了解决这一问题, 康谋 通过使用 IVEX 提出了专门用于应对ADAS/AD海量数据的数据处理流程。 该流程的核心目的是自动 从原始传感器数据等输入中识别出值得关注的事件和场景。构建这样的数据处理流程需要仔细考虑 各种技术方面 ,例如:原始传感器数据的云端存储、基于原始数据的算法执行(包括需要例如GPU等特定资源的机器学习算法)、事件和场景等后处理数据的存储机制、算法版本控制、结果可视化以及确保数据仅对授权用户可见。 二、内部构建或获取预组装解决方案 IVEX 的数据处理流程基于多种AWS服务实现 无缝衔接 ,以下是经过 策略性部署的AWS服务 : 1. 原始传感器的数据 (包括激光雷达点云、相机图像和GNSS信息)存储在S3存储服务中。S3用作采集数据的暂存地,为后期处理的数据提供扩展存储,并为处理提供经济高效的短期存储解决方案。此外,使用S3挂载点功能能让S3作为主要的“处理卷”,使其能够像文件系统一样使用。虽然它不完全符合POSIX标准,对某些工作负载存在限制,但可以通过整合EFS和可能添加的FSx来解决这个问题,以根据需要确保兼容性。 2. 处理后的数据 (重要事件和场景)存储在关系型数据库服务(Relational Database Service,RDS)和DocDB中。RDS是一个高效的存储库,用于组织对分析至关重要的标记数据。同时,DocDB作为文档存储运行,它是专为快速变化的数据和显示目的所需的二进制数据而设计的。 3. EKS和EC2处理算法执行和可视化任务。 EKS充当一系列服务的主机,包括后端、数据服务、前端和处理服务。EC2主要用于根据为EKS制定的规则配置机器。 4. 算法的版本控制通过 ECR 进行管理。 ECR用于存储Docker容器镜像。 5. 身份验证通过Cognito进行。 如果有必要,可以灵活地替换为任何OpenID Connect (OIDC)解决方案。 6. 数据传输和临时数据存储通过EFS进行管理。 EFS作为临时处理区域运行,供各种数据处理流水线存放中间数据并促进不同进程之间的数据共享。因为EFS完全符合POSIX标准,所以可以选择它作为S3的替代文件系统。 这个方案示例突出了 构建鲁棒的ADAS/AD数据处理流程 所涉及的 众多云服务 ,并强调了应对各种技术复杂性的必要性。此外,还必须解决诸如组织输入数据、确保数据格式兼容性以及管理和监控数据格式变化等挑战。 例如,随着ADAS/AD系统的发展,添加更多传感器以及管理不同车辆配置的需求成为数据处理流程中的关键考虑因素。如果不加以妥善处理,这些因素可能会导致 不正确的数据处理,最终得到错误的结果。 上图列出的是构建此数据处理流程的预计工作量和成本细目,该处理流程可标记 12种驾驶场景、提取驾驶参数,并支持可视化大型文件(≥ 10TB) 。 三、总结 总之,解决上述的这些问题需要付出大量的努力。显而易见的是,选择 预先搭建好的数据处理流程将拥有更低的开销 。此后,便可以将节省的时间和成本分配给开发OEM和Tier1产品的关键方面。
  • 2024-12-27 11:22
    0 个评论
    如何应对ADAS/AD海量数据处理挑战?
    随着软件定义汽车的发展,车辆生成的数据量也以前所未有的速度 不断增加 。这些数据包含广泛的信息,包括传感器数据、遥测数据、诊断数据等。在开发过程中, 有效处理这些数据并从中获得见解 至关重要。 对于原始设备制造商(OEM)和汽车一级供应商(Tier 1)来说,是否 自主构建 和 维护数据处理流程 是一个至关重要的考虑因素。 数据处理流程 是应对当下软件定义汽车所产生的海量数据的基础组件。 一、问题背景 在 AWS 等云平台 上为高级驾驶辅助系统 (ADAS) 和自动驾驶 (AD) 数据构建鲁棒的数据处理流程,通常需要全面了解各种服务及其集成。您可能使用的特定服务可能取决于 应用程序的要求、数据源和处理需求 。 为了解决这一问题, 康谋 通过使用 IVEX 提出了专门用于应对ADAS/AD海量数据的数据处理流程。 该流程的核心目的是自动 从原始传感器数据等输入中识别出值得关注的事件和场景。构建这样的数据处理流程需要仔细考虑 各种技术方面 ,例如:原始传感器数据的云端存储、基于原始数据的算法执行(包括需要例如GPU等特定资源的机器学习算法)、事件和场景等后处理数据的存储机制、算法版本控制、结果可视化以及确保数据仅对授权用户可见。 二、内部构建或获取预组装解决方案 IVEX 的数据处理流程基于多种AWS服务实现 无缝衔接 ,以下是经过 策略性部署的AWS服务 : 1. 原始传感器的数据 (包括激光雷达点云、相机图像和GNSS信息)存储在S3存储服务中。S3用作采集数据的暂存地,为后期处理的数据提供扩展存储,并为处理提供经济高效的短期存储解决方案。此外,使用S3挂载点功能能让S3作为主要的“处理卷”,使其能够像文件系统一样使用。虽然它不完全符合POSIX标准,对某些工作负载存在限制,但可以通过整合EFS和可能添加的FSx来解决这个问题,以根据需要确保兼容性。 2. 处理后的数据 (重要事件和场景)存储在关系型数据库服务(Relational Database Service,RDS)和DocDB中。RDS是一个高效的存储库,用于组织对分析至关重要的标记数据。同时,DocDB作为文档存储运行,它是专为快速变化的数据和显示目的所需的二进制数据而设计的。 3. EKS和EC2处理算法执行和可视化任务。 EKS充当一系列服务的主机,包括后端、数据服务、前端和处理服务。EC2主要用于根据为EKS制定的规则配置机器。 4. 算法的版本控制通过 ECR 进行管理。 ECR用于存储Docker容器镜像。 5. 身份验证通过Cognito进行。 如果有必要,可以灵活地替换为任何OpenID Connect (OIDC)解决方案。 6. 数据传输和临时数据存储通过EFS进行管理。 EFS作为临时处理区域运行,供各种数据处理流水线存放中间数据并促进不同进程之间的数据共享。因为EFS完全符合POSIX标准,所以可以选择它作为S3的替代文件系统。 这个方案示例突出了 构建鲁棒的ADAS/AD数据处理流程 所涉及的 众多云服务 ,并强调了应对各种技术复杂性的必要性。此外,还必须解决诸如组织输入数据、确保数据格式兼容性以及管理和监控数据格式变化等挑战。 例如,随着ADAS/AD系统的发展,添加更多传感器以及管理不同车辆配置的需求成为数据处理流程中的关键考虑因素。如果不加以妥善处理,这些因素可能会导致 不正确的数据处理,最终得到错误的结果。 上图列出的是构建此数据处理流程的预计工作量和成本细目,该处理流程可标记 12种驾驶场景、提取驾驶参数,并支持可视化大型文件(≥ 10TB) 。 三、总结 总之,解决上述的这些问题需要付出大量的努力。显而易见的是,选择 预先搭建好的数据处理流程将拥有更低的开销 。此后,便可以将节省的时间和成本分配给开发OEM和Tier1产品的关键方面。
  • 2024-12-26 10:43
    0 个评论
    康谋分享 | 如何应对ADAS/AD海量数据处理挑战?
    随着软件定义汽车的发展,车辆生成的数据量也以前所未有的速度 不断增加 。这些数据包含广泛的信息,包括传感器数据、遥测数据、诊断数据等。在开发过程中, 有效处理这些数据并从中获得见解 至关重要。 对于原始设备制造商(OEM)和汽车一级供应商(Tier 1)来说,是否 自主构建 和 维护数据处理流程 是一个至关重要的考虑因素。 数据处理流程 是应对当下软件定义汽车所产生的海量数据的基础组件。 一、问题背景 在 AWS 等云平台 上为高级驾驶辅助系统 (ADAS) 和自动驾驶 (AD) 数据构建鲁棒的数据处理流程,通常需要全面了解各种服务及其集成。您可能使用的特定服务可能取决于 应用程序的要求、数据源和处理需求 。 为了解决这一问题, 康谋 通过使用 IVEX 提出了专门用于应对ADAS/AD海量数据的数据处理流程。 该流程的核心目的是自动 从原始传感器数据等输入中识别出值得关注的事件和场景。构建这样的数据处理流程需要仔细考虑 各种技术方面 ,例如:原始传感器数据的云端存储、基于原始数据的算法执行(包括需要例如GPU等特定资源的机器学习算法)、事件和场景等后处理数据的存储机制、算法版本控制、结果可视化以及确保数据仅对授权用户可见。 二、内部构建或获取预组装解决方案 IVEX 的数据处理流程基于多种AWS服务实现 无缝衔接 ,以下是经过 策略性部署的AWS服务 : 1. 原始传感器的数据 (包括激光雷达点云、相机图像和GNSS信息)存储在S3存储服务中。S3用作采集数据的暂存地,为后期处理的数据提供扩展存储,并为处理提供经济高效的短期存储解决方案。此外,使用S3挂载点功能能让S3作为主要的“处理卷”,使其能够像文件系统一样使用。虽然它不完全符合POSIX标准,对某些工作负载存在限制,但可以通过整合EFS和可能添加的FSx来解决这个问题,以根据需要确保兼容性。 2. 处理后的数据 (重要事件和场景)存储在关系型数据库服务(Relational Database Service,RDS)和DocDB中。RDS是一个高效的存储库,用于组织对分析至关重要的标记数据。同时,DocDB作为文档存储运行,它是专为快速变化的数据和显示目的所需的二进制数据而设计的。 3. EKS和EC2处理算法执行和可视化任务。 EKS充当一系列服务的主机,包括后端、数据服务、前端和处理服务。EC2主要用于根据为EKS制定的规则配置机器。 4. 算法的版本控制通过 ECR 进行管理。 ECR用于存储Docker容器镜像。 5. 身份验证通过Cognito进行。 如果有必要,可以灵活地替换为任何OpenID Connect (OIDC)解决方案。 6. 数据传输和临时数据存储通过EFS进行管理。 EFS作为临时处理区域运行,供各种数据处理流水线存放中间数据并促进不同进程之间的数据共享。因为EFS完全符合POSIX标准,所以可以选择它作为S3的替代文件系统。 这个方案示例突出了 构建鲁棒的ADAS/AD数据处理流程 所涉及的 众多云服务 ,并强调了应对各种技术复杂性的必要性。此外,还必须解决诸如组织输入数据、确保数据格式兼容性以及管理和监控数据格式变化等挑战。 例如,随着ADAS/AD系统的发展,添加更多传感器以及管理不同车辆配置的需求成为数据处理流程中的关键考虑因素。如果不加以妥善处理,这些因素可能会导致 不正确的数据处理,最终得到错误的结果。 上图列出的是构建此数据处理流程的预计工作量和成本细目,该处理流程可标记 12种驾驶场景、提取驾驶参数,并支持可视化大型文件(≥ 10TB) 。 三、总结 总之,解决上述的这些问题需要付出大量的努力。显而易见的是,选择 预先搭建好的数据处理流程将拥有更低的开销 。此后,便可以将节省的时间和成本分配给开发OEM和Tier1产品的关键方面。
相关资源