tag 标签: 欺诈检测

相关博文
  • 热度 5
    2022-10-17 10:40
    846 次阅读|
    0 个评论
    各行各业的欺诈者一直存在,尤其是金融服务行业欺诈性事件更是数不胜数。为了阻止欺诈事件的产生,反欺诈者也越来越多。随着人工智能在计算机领域的发展,使用机器学习进行欺诈检测已在许多行业中流行起来。本文中,虹科云科技将探讨如何使用机器学习进行欺诈检测、一些最常用的机器学习欺诈检测算法和最佳实践。 一、使用机器学习相对于传统方法的好处 1.机器学习的概念 在深入研究如何使用机器学习来检测欺诈之前,我们先简要定义一下机器学习是什么。机器学习是人工智能的一种应用,它使系统能够从经验中学习和改进,而无需明确编程。 2.欺诈检测的方法 欺诈检测有两种方法。最常见的是基于规则的方法,而最有效的是使用机器学习。基于规则的检测已经存在了一段时间并且仍被广泛使用,但该方法难以应对不断变化的欺诈环境。此外,使用规则意味着必须撒大网,可能会导致一些正常的交易被标记为欺诈。例如,风险分析师可以根据位置创建规则从而阻止假定有风险的位置的交易。 通过机器学习,规则进行了相应的改进。通过机器学习,系统可以从以往的经验(数据)中学习,而这往往是应对欺诈事件的好方法。使用机器学习并不意味着规则没有用或已经过时。事实上,结合使用这两种方法可以让你在与欺诈者斗智斗勇过程中获得最佳机会。 二、使用机器学习进行欺诈检测 在使用机器学习检测欺诈时,通常有两种方法可以解决: 第一个是异常检测,它从无监督学习的角度解决问题。 另一种是分类,这是一种有监督的学习方法。 1.异常检测 一般来说,异常检测,也称为聚类,是一种用于识别异常行为的机器学习技术。表明异常行为的遥远数据点被称为点异常。在检测金融欺诈时,重要的是要了解大多数金融交易(超过 99%)不是欺诈性的。因此,欺诈者实际进行的交易中只有一小部分是点异常,这些小部分的点异常则是企业系统需要标记的事务。 2.分类 在机器学习中使用分类,是通过不同的角度解来检测欺诈。在这里,需要训练一个模型来学习好交易和坏交易的特征,以便对新交易进行分类。值得注意的是,需要有足够数量的数据并标记好了“好的交易数据”和“坏交易的数据”,这样系统对数据进行模型训练后才能分辨哪些交易具有欺诈性。 三、机器学习欺诈检测算法 目前有多种算法可以进行欺诈检测,至于哪种算法更好、更适用,关键还要看企业的数据。下面是目前使用比较多的一些机器学习欺诈检测算法。 1.逻辑回归 逻辑回归是最基本,但功能最强大的算法,可用于预测真假(二进制)值。逻辑回归通过将数据拟合到逻辑函数来从一组自变量中估计离散值(通常是欺诈/无欺诈等二进制值)。 2.决策树 决策树是另一种流行的算法,它学习规则来分割或分类数据。决策树算法最有趣的一点是,该模型是一组易于解释的规则,同时也可以采用这些规则并创建基于规则的系统。但是,该模型绝不是基于规则的系统,因为基础数据的微小变化可能会导致一组完全不同的规则。 3.随机森林 随机森林是一种基于多个决策树的算法,可以提供更准确的分类。它通过平均单个决策树的结果来做到这一点,其预测能力是非常优秀的。随机森林适用于具有大量输入变量的训练集。 但从一方面看,随机森林比决策树更难解释。通过随机森林最终会得到许多规则,而不是一套规则。尤其需要对系统合规性或其他监管要求进行解释时,多种规则可能会出现问题。 4.K-近邻算法 (KNN) K-近邻算法是一个简单的算法,它存储所有可用案例,通过对其k个最佳邻居进行多数投票来对新案例进行分类。在K-近邻算法中,会使用像欧几里得距离这样的距离函数。此外,该算法的训练过程并不完全生成模型。相反,“训练”和“分类”是即时发生的。 这使得 KNN 算法在欺诈检测方面比其他机器学习算法的计算密集度更高。 5.K-均值 K-均值是一种解决聚类问题的无监督学习算法(不同于 KNN)。该算法将给定的数据集分组到多个集群中,以使集群中的数据点尽可能相似。与KNN类似,K-均值也会使用距离函数。 四、在欺诈检测中使用机器学习面临的挑战 1.标签不平衡 在现实世界的欺诈检测中,几乎都需要处理不平衡的数据集,因为欺诈条目在数据集中仅占少数。如果用户使用的是有监督的机器学习,则更适合处理平衡数据而非不平衡的数据集。 对于该问题,一种常见的解决方案是使用上采样等技术来增加少数欺诈样本或使用下采样来减少大多数合法样本。 2.非平稳数据 想要抓住欺诈者,就像一场猫捉老鼠的游戏。因为欺诈行为会迅速发生变化,这也会导致数据发生变化。因此,不断训练新模型来应对欺诈非常关键。一种有效的方法是建立一个模型再训练过程,以便更快地适应并更好地捕捉欺诈行为。