半导体主流先进制程工艺梳理

文 / 中国工商银行网络金融部创新研发中心产品规划团队

观点 | 基于机器学习的全链路风控系统建设方案探索

电商营销活动中存在着大量的“薅羊毛”、刷单、内容作假等问题,初期平台主要依靠专家系统和事后案件分析识别用户风险,但专家系统存在规则简单易攻破、人工维护成本高等弊端。基于大数据和机器学习的全链路风控系统,可实现在更高维度以更加自动化、智能化的方式发现风险行为,全面精准打击风险用户。

互联网时代为我们生活带来便利的同时,也带来了一些新的挑战。以电商平台拉新活动为例,平台为吸引更多用户注册,推出各种注册返现、推荐有礼等活动,最终带来的可能是真正用户,也可能是“羊毛党”。用户参考商品的销量和评价决定是否购买商品,殊不知销量和好评都是虚假数据。营销活动被“薅”、数据造假、钓鱼网站的存在严重损坏普通用户权益、影响平台正常运营。平台需通过不断完善自身风控能力,打击不法分子恶意行为,保证平台正常运营,保护平台的公平竞争环境。

一、电商风险场景介绍

账号是电商黑灰产的基石,为储备大量的账号,账号商人会通过批量机器注册、撞库获取账号,通过养号储备高级账号。账号商人将账号卖给“羊毛党”或者工作室,由“羊毛党”或者工作室操作各种自动化软件,通过机器领劵、机器秒杀、机器刷单等方式获利。

1. 批量机器注册

存在于平台的注册环节,账号商人从卡商处购买电话卡,利用接码平台接收并完成验证码校验,对于复杂验证码,通过接入打码平台完成校验,一次注册多个账号,整个过程完全自动化。

2. 撞库

发生于平台的登录环节,黑客通过各种渠道收集互联网中泄露的用户名和密码对,生产字典表,通过批量尝试登录其他网站获取一系列可登录的账号信息。

3. 机器抢劵

电商营销活动多围绕获客、活客、留客展开,最常用的方式是发放优惠券,其中一些活动力度大的优惠券成为“羊毛党”的重点关注对象。其利用各种自动化工具,如群控工具、模拟器等操作批量账号同时抢劵,速度远超普通用户。

4. 刷单

为提高商品的搜索推荐排序,商家与工作室合作,以以假乱真的方式下单,制造商品销量很好的假象,并在订单完成后填写虚假好评。

二、现阶段常用风控手段

针对在运营过程中出现的机器抢券、刷单、撞库、高频访问等风险行为,现阶段防控手段偏专家规则,且主要在登录、领劵、下单等几个关键环节接入风控系统,主要特点和存在的问题如下。

1. 基于唯一用户标志的封禁

黑灰产在IP/设备/付款账号/收货电话/收货地址等维度上有聚集性特点,表现为:

(1) 同一个IP/设备频繁参与活动

(2)短时间内有大量订单为同一个收货电话/收货地址

(3)大批账号使用同一付款账号

基于以上特点,平台在登录、领劵、下单环节接入风控系统,如封禁一天以内登录失败次数过多的用户名/设备/IP,并将其纳入黑名单,效果显著。但是随着黑灰产产业链的不断完善、技术水平的提升,缺点也逐渐暴露出来:

(1)专家规则简单,易被攻破,黑灰产可利用代理IP、设备农场等自动化工具/平台绕过现有规则。

(2) 特征维度低,覆盖范围有限,无法有效探索新的风险。

(3)易误杀真实用户,对于同一个公司的用户,其出口IP和公司收货地址通常一样,若将这些IP和地址进行封禁,会误伤整个公司的用户。

(4)更新维护工作量较大,需人工不断对案件进行分析总结,调整规则。

2. 局部布控

在登录、领劵、下单环节分别接入风控系统,通过上报当前环节的特征变量,在规则引擎中配置风控规则来发现当前环节的风险行为。这种局部布控的方法,能在一定程度上发现各环节的风险用户,但因布防范围有限,且仅根据用户在当前环节的行为进行判断,易被风险用户识破并绕过。

3. 增加验证码

平台通过在关键环节增加验证码校验的机制,过滤机器用户和低价值用户。这种方式初期起过一定作用,但随着自动化工具的泛滥,黑灰产使用接码、打码平台可完成自动化校验,虽然能在一定程度上增加作案成本,但相较于后续收益几乎可以忽略。此外,增加验证码还可能带来用户体验上的问题,试想若在优惠券领取环节增加输入验证码要求,那么在大型活动中,无论是对用户还是对平台系统都将是一个灾难。

三、基于机器学习的风控技术

基于专家规则的风控手段,通过人工对案件进行分析,提取显著性较高的分析结果加入规则引擎,但对于覆盖面较小且显著性较低的行为,无法进行有效识别。相比而言,基于机器学习的风控技术,可接收更高维度的输入,依赖其强大的计算能力和逻辑能力,通过自学习得到一个高维模型,发现更多无法被专家规则识别的风险行为。

机器学习首先是从前期收集的案件数据中提取训练样本,并基于对风险场景的理解进行特征加工,然后选取合适的数学模型进行模型训练、调优。待模型训练完成后,放入线上环境进行风险预估,并进行结果验证,验证结果可对样本集进行补充,从而实现机器学习的闭环。

观点 | 基于机器学习的全链路风控系统建设方案探索

1. 全量特征,可覆盖用户长短期各维度风险特征

相比于专家规则中有限的数据分析处理能力,机器学习可以接收全量特征,根据既定目标自动筛选重要特征建立模型,将我们的工作聚焦在更全的发现风险特征上。风险特征不再局限于当前环节的某几个重点特征,可以追溯到历史中与风险场景有关的各个环节数据。

2. 高维模型,可全面准确识别风险用户

基于全量特征,通过模型自学习得到高维复杂模型。人的表达能力、组合能力、理解能力有限,但这并不是计算机的瓶颈。通过机器学习形成的高维模型比专家规则逻辑上更复杂的同时,也保证了结果的高准确率、召回率。

3. 学习闭环,自动化生成训练样本和模型更新

模型上线后,利用线上识别验证结果补充训练样本,自动更新模型,实现学习闭环,保证模型的有效性。

整体而言,基于机器学习的风控技术可以更全、更准、更加自动化和智能化的发现风险用户。

四、全链路风控系统建设方案

针对原专家系统中存在的各种问题,结合大数据、人工智能等热门技术进行探索,平台得到如下风控系统建设方案,整体分为三部分:基础数据层、技术服务层、应用层。

观点 | 基于机器学习的全链路风控系统建设方案探索

1. 基础数据层

基础数据层负责收集风控相关数据,根据数据来源不同分为平台内数据、互联网采集数据和第三方公司合作获取的数据。

平台内数据为用户/商家在平台内产生的数据,包含用户注册数据、登录数据、浏览数据、下单关注、商家注册信息等。其中以用户浏览数据最为丰富,通过页面埋点采集,主要包含设备指纹、位置信息、行为路径信息、用户交互行为等数据。

互联网数据为平台从互联网中各开放平台获取的数据,如获取带有平台关键字的相关新闻,从中发现平台可能存在的漏洞。爬取各网站公布的风险名单数据,经过验证后补充平台风险库。

对于初创公司或者业务规模比较小的公司,存在数据不够丰富、技术能力薄弱等问题,通过与第三方专业风控公司合作,充分利用业界已有的成果,如用户黑名单、用户关系数据、风控模型等可以帮助平台快速建立一个比较完善的风控系统。

2. 技术服务层

基于底层数据,利用大数据周边产品,完成风险特征库、策略库、模型库、名单库、案件库的建设。

通过对各种结构化数据和非结构化数据的整合,利用大数据相关处理技术,生成以用户为中心的特征数据存放在风险特征库供后续建模使用,风险特征包含用户的画像信息、位置数据、行为特征等。

模型库用于统一存放管理通过统计分析、机器学习等方法完成的风险模型。电商平台的风控重点是发现自动化(机器)的团伙作战,所以社群发现和人机识别是基础也是重点。在社群发现和人机识别的基础之上,可结合具体场景建模识别相应场景下的风险用户。

策略库用于管理风险用户的处理方案,对于同样的模型结果,应结合用户画像,给出不同的处理方案,以期实现千人千面的风控引擎。同时,策略库也应结合风险行为的结果状态设计处理方案,如秒杀活动中,某些风险行为的识别只能在秒杀行为积累到一定的量才能进行有效识别,但此时用户的秒杀行为已完成,策略库应根据秒杀订单的状态在各环节的设计拦截方案。

案件库用于存放通过各种途径收集得到的用户风险案例,详细记录用户何时何地因为何种原因识别为风险用户,为后续的模型建设、优化等提供样本数据。

将确定的风险用户/IP/电话等放入黑名单中,用于后续对应用层服务的支撑。同时设立用户白名单,存放优质个人客户或者内部员工,以防止风控系统发生误伤,导致用户体验差的情况发生。

3. 应用层

应用层主要完成风控方案的全链路布控,覆盖电商各个业务环节,包含用户注册、登录、浏览、领劵、下单、支付、售后、评价。各个环节的特征互通,如可将用户注册时的信息作为特征变量提供给后续各环节使用,提高风险判断的精准度。

在每一个环节,通过事前预防、事中检测处理、事后分析总结三个步骤来规避其中可能存在的风险,以保障平台各项业务的顺利进行。事前预防通过完善业务审核流程、制定严格的业务规则保障平台业务的顺利开展。事中检测处理依赖技术服务层的风险特征、名单库、模型库,通过接入风控引擎进行用户风险行为识别,在策略库配置规则对风险行为进行处理。事后分析主要做离线分析,通过分析活动中新发现的风险用户行为,发现新的风险场景,完善模型库、名单库、指标库的建设。

随着黑灰产自动化、智能化程度的提升,传统风控手段在识别率和准确率方面无法满足平台风控的要求。依赖大数据、机器学习等现代化技术的全链路风控解决方案,能更精准全面的识别风险行为,促进电商平台业务的持续发展。

*本文仅代表作者本人观点

观点 | 基于机器学习的全链路风控系统建设方案探索

上一篇

东南亚电商发展趋势,现在入局该选Lazada还是Shopee?

下一篇

从中国1G-5G的发展,看中国新能源汽车的破局

你也可能喜欢

  • 暂无相关文章!

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
返回顶部