最近几年,网信办对互联网行业监管趋严,重拳打击了很多涉政治敏感、黄赌毒以及三俗内容的产品。互联网无法外之地,在此背景下,加强公司内容安全管控机制,建立完善的内容审查制度,构建以反垃圾反作弊为核心的风控机制和流程显得尤为重要。
不重视风控机制的公司,损失惨重:
重则如头条系的内涵段子直接永久关停,一个拥有2亿注册用户日活过千万,估值几十亿的APP,在一纸监管令下灰飞烟灭。如果早点采取风控措施,加强用户审核和ugc内容审核,或许可以改写永久关停的命运。
轻则被责令下架整改,封禁账号:
“2019年4月11日,针对视觉中国网站传播违法有害信息的情况,天津市互联网信息办公室依法约谈网站负责人,责令该网站立即停止违法违规行为,全面彻底整改。”——来源:天津网信办
注:视觉中国事件爆发以来,连吃2个跌停。
本文不谈视觉中国侵权及商业模式问题,导致监管出手的是传播违法有害信息,为了文章安全暂不放那几张敏感侵权照片。
“2019年4月12日,一向受股民喜爱的连股评社区「雪球」APP也无法幸免,APP被多平台下架整改7天,发帖和评论功能暂停,虽然官方回复是“因系统升级,发帖评论暂停”。
2018年12月以来,国家网信办会同有关部门,针对涉黄涉赌、恶意程序、违规游戏、不良学习类移动APP开展专项整治行动,关停下架违法违规APP33638款,拦截恶意网站链接234万余个,社交平台清理低俗不良信息2474万余条、封禁违规账号364万余个,APP乱象得到有效遏制,网络生态持续向好。”——来源:网信中国
在当前互联网强监管压力之下,已经有很多公司重视风控,比如:头条和快手都扩招了几千人专门做内容审核,如何有效提升风控水平,降低风控成本,是风控产品经理的新课题。
下面重点聊三个话题:三大风险、两大审核机制、六大风控产品。
一、三大风险
根据风险标的及场景不同,这类内容型产品的风险主要分为三类:账号风险、内容风险和数据隐私风险。
1. 账号风险
主要从虚假用户识别、恶意注册以实名认证等维度设计风控策略。
账户体系风控是拦截羊毛党黑产的第一道关口,某些创业公司为刷数据融资,私下里会和羊毛党串联起来刷注册量、刷订单以及活跃度等指标。这是饮鸩止渴的做法,不在本文讨论范围内。
2. 内容风险
主要从牌照、版权等资质条件,以及文字、图片以及视频三大维度的进行风险管控。
传统媒体从事新闻资讯和视频节目,需要有《互联网新闻信息服务许可证》、《网络视听节目许可证》等牌照,是否具备相关牌照也是平台内容风险的一部分。
道路千万条,合法经营第一条。经过这么多年发展,以头条和一点资讯为代表的聚合类资讯平台已经解决了牌照问题,版权问题也不再是障碍。
内容本身的文字、图片和视频是风险管控的重点。
以头条为代表的资讯聚合平台本身不产生新闻资讯,但是通过算法平台进行分发触达消费者,一样需要承平台应有的责任。虽然头条通过收购曲线拿到视频牌照,解决了牌照风险。但是短视频爆发得太快,如何在牌照庇护下做好视频内容管控,是头条类企业面临的新课题。
上文中,引发监管出手的主要是内容风险——即APP里出现政治敏感词汇、黄赌毒或者不当时政新闻内容。
在发展初期,APP用户少的时候还能进行用户审查和内容管控,随着用户爆发式增长。在推崇算法至上的企业里,天真认为技术是中立的,算法无罪,任由大量黄赌毒垃圾内容饲养算法和用户,最终走向失控的局面。
在人工智能和算法为王的信息时代,还是要为算法划一道底线,知道安全边界在哪里。
同时,「人工」的作用不可小觑,在头条和快手里出现了很多代表中央声音的部级媒体大号,ai算法在人的干预下,给与了置顶权限和流量倾斜,以便传播时代声音,弘扬社会正能量。
3. 数据和隐私风险
包括爬虫反作弊机制、数据加密和防黑客攻击等技术风险防范。
时间回放5年前,头条刚起来的时候被几大媒体围攻,头条爬虫无授权抓取其他媒体平台内容到自家平台,涉嫌侵权违规。这在一定程度上暴露了传统媒体对内容信息保护不够,反爬虫能力不强的弱点。
网贷市场上有很多针对天猫、京东和点评商户的贷款产品,这些企业通过爬取天猫、京东和美团的商户数据去做营销或者贷款服务,电商平台的数据反爬机制建设任重道远。
电商场景的风控除了数据反爬取,更多是营销风险,以后文章详细介绍。
最后,用户在平台进行注册填写了个人信息,平台有责任保护用户隐私数据不被泄露,每年网上都有爆出某某平台用户数据泄露在黑市交易。在与黑产对抗的过程中,平台要投入资源加强风控安全体系,做好反爬虫反作弊措施。
二、两大审核机制
审核机制包括:系统自动过滤和人工审核两大模块。
针对商户bgc和用户ugc平台,首先使用系统自动过滤敏感内容,系统无法有效识别判断的在进行人工审核,这是常用的用户和内容审核风控流程。
在UGC机制上, 有以下几种策略进行风控控制:免登录发言、注册登录后发言、匿名发言、实名认证后发言、账号粉丝/注册时间超过一定限制才能发言、专家身份认证后发言、直播聊天室主持人控麦发言等维度。
目前大部分平台都要求注册登录通过手机号认证后发言,手机号注册通过后,借助运营商渠道完成弱实名认证,这也是视频、社交类平台主流的账号体系实名模式。手机号弱实名认证有很多漏洞,平台的反作弊风控策略拦截效果一般。
黑产羊毛党手中专门提供手机号的卡商,猫池卡池养几千万张卡,很容易弄到一套低成本的手机号实名信息。网络水军和职业差评师是这类黑产卡商的大客户。地下黑产羊毛党产业链有严密的分工流程和组织体系,留在以后文章详细介绍。
如果涉及交易支付环节,银行卡四要素实名是安全性更高的实名认证模式,作弊成本比手机号实名高几倍,但是这只在电商平台才用得到。ugc类平台为了降低发帖门槛保证用户体验,很少要求强实名认证。
从用户注册登录,到发布新闻资讯、评论和视频等内容,主要的审核环节包括:昵称、头像、实名、ugc产生的资讯文章、链接、图片和视频。
新闻资讯、评论和视频点播要求贯彻先审后播的政策。这类产品形态可以执行【事前预防/审核-事中及时阻断-事后复核追溯】的完整风控流程。
对于直播,只能做到【事中及时阻断——事后复核追溯】,所以直播类应用面临的挑战更大,更需要严把主播资质审核关口,避免出现直播中出现「黄鳝门」这种涉黄涉暴力事件,直到舆情爆发直播平台才后知后觉介入收拾烂摊子。
在审核流程上,有以下几种风控处理机制:
- 删除敏感文章、图片和视频:常见于很多微信公众号作者,容易被河蟹。
- 对用户禁言,禁言时间根据严重程度设定:常见于社交平台和聊天室。
- 永久封禁账号,销号处理,对于平台来说这是比较严重的处罚,比如:咪蒙。
三、六大风控产品
面对三大风险和两大审核机制,需要采用如下六大风控产品:设备指纹、滑块验证、实名认证、黑名单库、敏感词库、半监督机器学习算法,共同构建强大的反作弊反垃圾智能风控平台加以应对。
1. 设备指纹
设备指纹是指:可以用于唯一标识出该设备的设备特征或者独特的设备标识,可以精准识别设备,识别风险设备,对设备进行聚集性、相似度等综合分析 。
设备指纹主要包括如下信息:设备IMEI码、Android_ID、序列号、SIM卡号等,是反作弊反欺诈风控模型的重要变量,这些是暗面数据,不需要用户填写即可完成采集。
用户感知层面,如果在常用手机上开通了支付宝免密支付,正常环境下是可以支持使用的。
如果换一个设备,或者地理环境、网络环境发生变更后,需要输入密码或者手机验证码重新进行安全校验,就是因为设备指纹信息变了,触发了支付宝风控规则。
2. 滑块验证
滑块验证属于验证码的一种,是人机识别反作弊的关键一环,主要用在新用户注册、登录以及风控引擎判断为风险操作的环节。
很多政府网站可以免登录查询相关数据,比如:企业信用信息公示系统。为了防止被爬虫大量爬取数据,也会增加验证码环节,提高数据爬取成本。
简单的数字验证码、图形验证码容易被爬虫攻破,前几年网上比较火的12306的图形识别验证码被很多用户吐槽难以识别,但也是可以利用深度学习算法破解的。笔者也曾做过相关爬虫产品,难点在于需要持续维护成本,验证码策略变更或者网站改版都需要优化代码。
目前最难攻破的应该是复杂的滑块验证码,对爬虫算法要求较高,人工智能投入不划算。
机智的产品经理想到了最简单的办法:人肉破解验证码——人工打码平台。羊毛党把需要识别的验证码通过api接口传给打码平台,打码平台把验证码分发给很多网络上的兼职众包人员,人工识别出结果后返给羊毛党,完成了验证码的人工破解。
3. 实名认证
实名分为弱实名和强实名,弱实名一般指校验姓名+身份证号码,通过运营商手机号验证即可,此种方案默认运营商已经做过实名。
单独的姓名+身份证号码一致性校验,接口成本不到1毛钱,市场上比较通同的是国政通。
强实名最常见的就是银行卡四要素校验:姓名+身份证号码+银行卡号+银行预留手机号,通过绑卡即可完成实名认证,校验要素越多,实名认证约可靠,因为提高了羊毛党作弊成本。
除了自然人实名,很多有商户入驻的平台还有企业实名,比如:天猫京东的第三方pop商户入驻。
五证合一后,企业实名主要校验三证:工商营业执照、税务登记证、组织机构代码证。
同时,为了确保安全,可以要求企业上传银行开户许可证、法人身份证件等信息作为增信资料。三证合一换领了统一社会信用代码证的,校验统一社会信用代码和企业名称、法人姓名以及法人身份证号是否一致,即企业四要素验证。
市面上很多这样的校验接口,在京东万象数据超市可以找到,成本比个人实名贵,企业四要素接口大概一块钱一次。
4. 黑名单
黑名单是比较常见的风控产品,具体细分类型有:失信名单、金融疑似欺诈、信贷不良、多头申请和地址黑名单等维度。可以积累自身数据源,加上市面上第三方提供的黑名单数据,做多重验证。
对于内容型产品,主要用于在账号注册环节,可以根据手机号、身份证号码、以及设备id维度交叉验证查询黑名单,在源头自动拦截羊毛党黑产入驻。
5. 敏感词库
敏感词库用于过滤ugc内容,通过NLP自然语言分析是否有敏感内容,实现系统自动过滤,主要针对文字内容。
如果为了防止误杀,还可以在敏感词上面加一层过滤词,命中敏感词的系统自动删除。
命中过滤词的做风险提示,有人工介入处理决定是否删除。对于重视评论和发帖的论坛,封杀风控策略过严会影响某些部门的KPI完成。
对于图片形式的过滤,比如:头像,以及视觉中国事件里,创始人柴继军回应的图片上传审核有问题,可以使用ocr识别技术自动识别图片内容,然后结合机器学习算法和相关数据,判定图片是否违规。
对于小公司,如果没有图像识别开发实力,可以采购图片鉴黄违规识别接口,单次成本不到一毛钱,为了避免广告嫌疑,此处不再粘贴接口链接地址。
6. 半监督学习算法(Semi-Supervised Learning,简称SSL)
随着人工智能的发展,机器学习算法广泛应用到智能风控领域。
算法是需要数据饲养的,根据数据样本是否标记,分为:监督学习、半监督学习和无监督学习三种算法模型。
监督学习数据样本全部需要人工标注,成本较高并且数据量级有限。无监督学习使用无标注数据样本进行机器学习,不便于提升学习效果。
人们尝试将大量的未标注数据样本加入到有限的有标注数据样本中一起训练来进行学习,期望能对学习性能起到改进的作用,由此产生了半监督学习算法SSL。
目前介绍了常用的六个风控产品,在复杂的风控架构里肯定还有很多没有提到的新产品新技术,后续有新的发现再补上。
反作弊反垃圾风控体系建设是一项长期复杂的工程,风控在强大,也难免有黑产羊毛党找到漏洞入侵。风控的本质不是要100%消除风险,而是要在一定成本下最大限度控制风险减少损失。
非金融级的风控资源投入取决于每个公司对风险的重视程度,在互联网强监管时代,很多内容型公司都加大对风控的投入,以降低公司整体运营风险。
后续会推出金融风控产品系列,金融风控无法覆盖的裂缝,一般通过建立风险保障基金解决盗刷赔付风险问题。
专栏作家 @刘国宏(微信公众号:iwifi) 发布 ,更多相关文章可以关注作者微信公众号交流。
题图来自Unsplash, 基于CC0协议。