2023年12月11日发(作者:)

人工智能运用于反洗钱监管的探索与政策建议

目前,反洗钱监管主要通过“以案倒查”、经验指标筛查数据等方式识别义务机构可疑交易漏报行为,前者存在针对性强但覆盖面不足的问题,后者则存在不够全面精准、时效性不足、经验门槛高等局限。人工智能技术能自动总结规律特征,有效避免人工寻找数据间因果关系耗时耗力、精准度不高等问题。根据人工智能技术特点,对机器学习在可疑交易筛查中的应用探索了一套设计思路和应用框架,希望能起到抛砖引玉的作用。

一、机器学习技术运用于可疑交易筛查的原理介绍

机器学习是AI的重要子领域,研究计算机如何模拟人类的学习行为,获取新的知识或技能并重新组织已有的知识,不断改善自身性能的过程。机器学习技术可以帮助人们从庞大数据中发现未知的洗钱模式,建立监测模型,提升监测效率。作为其中一个分支,监督学习利用已知标签的样本数据(例如是否为可疑交易),尝试学习样本特征(例如客户身份信息与交易数据)与标签之间的映射关系,并获得近似刻画训练数据中样本特征与标签之间真实映射关系的模型。模型投入应用时,将新的数据输入模型,会得到一个预测值,作为判断是否可疑的依据。在用于可疑交易漏报筛查时,可使用GBDT方法。 梯度提升决策树GBDT是机器学习中的经典方法,其主要思想是利用决策树迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。而LightGBM是一个实现GBDT的算法框架,具有训练速度快、内存消耗低、准确率高、支持分布式可以快速处理海量数据等优点,可以解决GBDT在海量数据遇到的问题。同时,随着引入数据的增加,训练出的模型还能持续迭代、不断优化,降低使用门槛。

二、人工智能可疑交易筛查系统建设构想

(一)系统工作流程

这里以银行业机构为例进行介绍。

1.提取标准化数据

基于可疑交易筛查所需的客户身份、账户、交易信息,制定数据接口规范,明确字段填写规则,提取标准化、结构化数据。编写数据校验程序,对提取数据的数据格式、完整性等进行校验,分别输出准确无误和需要补正的数据内容,数据提取完整准确后方可用使用。

2.根据输入数据构建决策树

建模具体流程依次为:样本定义、特征工程、模型训练和模型验证。

(1)样本定义

为建立具有强适应性的泛化模型,应选取监管机构掌握的可疑交易数据以及机构规模、业务类型具有代表性,交易监测分析水平较高的银行机构数据。其中时间较远的数据作为训练数据,用于模型训练,时间较近的作为验证数据,辅助模型调参的同时验证模型准确性,以便更好模拟历史数据规律,预测未来的数据行为。例如,选取监管机构掌握的可疑交易数据,以及多家国有银行、股份制银行、本地法人银行在18年1月-20年6月经过准确性核实的数据,将19年6月之前的数据用于模型训练,19年7月至20年6月的数据用于验证。监管机构掌握的和银行机构上报的涉及可疑交易的客户交易视为黑样本,未上报的视为白样本。鉴于正常情况下黑白样本数量差距较大,原始黑样本数量较少,无法保证训练精度,白样本数量较多,按原始比例训练会耗费过多资源,应进行样本均衡:一是黑样本扩充,将洗钱客户上报日前几日的交易数据也扩充为黑样本;二是白样本抽样,对白样本进行简单随机抽样,使黑白样本比保持在合理水平。

(2)特征工程

一条样本由个人或机构截止某日的静态信息,以及当日、往前聚类多日的交易信息共同构成,这些信息需要由多个适当的特征来表示。从可疑交易分析实践经验来看,应构建包含四大类的特征体系,包括:属性特征,如证件号码、年龄、性别等;交易特征,如样本主体的交易频率、交易时间、资金转入转出的分散程度等;行为特征,如样本主体与其他客户的交易关联程度等;衍生特征,如账户余额减交易金额小于阈值的交易占比、交易金额在某数值区间的交易占比等。

(3)模型训练

确定样本以及特征后进行模型训练。GBDT方法由预设了棵数、最大深度以及学习率等参数的分类与回归树(CART)组成,首先从已构建特征中选择出一个特征j(例如年龄、职业等),做为二叉树第一个节点;然后对特征j的值选择一个切分点m, 一个样本的特征j的值如果小于m,则分为一类,如果大于m,则分为另外一类。如此便构建了树的一个节点,经过第一次分类的样本再进入下一个节点的分类,其他节点的生成过程相同。原始GBDT做法是遍历每个特征,然后对每个特征遍历它所有可能切分点,找到最优特征j的最优切分点m的组合,让损失函数尽快收敛达到局部最优解或者全局最优解,完成二叉树,然后将所有树的结论累加起来作为最终答案。GBDT方法核心在于每一棵树拟合的是之前所有树结论和与真实值的残差,这样可以在不改变原本模型参数的前提下进一步提高模型拟合能力。比如A真实年龄是18岁,但第一棵树预测年龄是12岁,残差为6岁。那么在第二棵树里面拟合6岁这个残差,比如第二棵树结论是2岁,则仍然存在4岁残差,第三棵树里面继续拟合这个4岁残差,这个过程可通过LightGBM算法来实现。

(4)数据验证 数据验证分为线上验证和线下验证。线上验证是指在模型真正投入使用前,利用历史样本评估模型效果,调整棵数、最大深度、学习率等参数,避免模型出现过拟合,对非训练数据的拟合度较差。线下验证是指模型经过训练和线上验证后,正式使用,对未参与训练的机构数据进行分析判断,并由监管部门对得到的可疑分数排名靠前的主体进行校验,核查模型分析准确性。

3.系统输出结果的应用

每次训练判别后输出一份以客户主体为单位的可疑分数排序表,内容包括姓名或名称、证件类型、证件号码、可疑时间点、可疑分数、可疑分数排名、疑似涉罪类型和判断依据。现场检查人员根据排序以及涉罪类型和判断依据,对可疑分数靠前个体的相关交易进行研判,并比对机构上报的可疑交易报告清单,定位漏报违规行为。训练后还可输出一份特征重要性排序表,根据每个特征对模型的影响程度,进一步反哺经验指标。

(二)系统实现成效

以2019年以来的部分被查银行机构和被风险评估法人银行机构的客户和交易数据进行模型训练,构建了风险特征超过2300维的泛化模型,有效提高执法检查效率和效果。系统在建设过程中通过某国有商业银行、某股份制银行现场检查数据进行模型训练和系统测试,可疑命中率均达60%以上。在对某股份制银行的现场检查运用中,筛查的排名前10位和前20位风险主体命中率分别达90%和65%,有效识别并堵截16起涉嫌跨境网络赌博、地下钱庄非法经营等违法犯罪行为,并将可疑交易报告检查时长从原来的2至3周缩短为3-4天,大大提高检查效能。

三、人工智能运用于反洗钱监管的政策建议

一是为建模数据收集提供制度支撑。人工智能建模和运行需要大量数据,现有法规下监管部门获取训练数据的渠道主要是现场检查。如何确保对人工智能反洗钱数据的采集、使用和保存,同时实现筛查所需的工商、税务等机构的数据共享,仍需法律法规进一步支撑。

二是为义务机构反洗钱数据治理提供指引。当前义务机构反洗钱基础数据质量不高,数据记录保存不完整,保存类型不适合计算机处理,一定程度影响人工智能技术应用。部分机构虽已着手开展反洗钱数据治理工作,但因缺乏监管指引,导致标准不一、方法各异,对于监管部门而言其数据使用价值未得到明显提升。

三是加强反洗钱监管科技专业人才储备。推动人工智能技术在反洗钱监管领域的应用落地需要对两个领域都有深入理解的综合性人才,监管部门缺乏相关储备,严重影响国内相关研究应用。