最近世超看到了个消息:AI识别验证码,现在比人都快了。不仅快,准确率还吊打人类。
这不,前段时间加州大学艾尔文分校就甩出了一份论文,里面的研究数据是啪啪打验证系统的脸。
简单来说,他们把市面上所有类型的验证码,点击类的,拖拽旋转类的,图片选择类的等等等等,都搜罗了过来,分别让 AI 和测试者做了个遍。
(资料图片仅供参考)
其中,最简单的点击识别, AI 直接 1.4 秒就能过,还百分百准确度,而人类不但要得花 3~4 秒,竟然有一两成的人过不了。
到拉大难度的图片验证, AI 虽然在速度上稍有下降,但起码还保持在人类的平均水平里,准确度也和人类相当。
让我选红绿灯,这杆子我是真不知道该不该选
测试结果大家也都看到了,看这AI几乎门门儿接近百分百的准确率,速度也普遍比人快,说夸张点已经是吊打人类的程度了。
反正论文提交后,这个项目的主任 Gene Tsudik 直接给验证码戴了个“气数已尽”的帽子。
还有一些媒体甚至打出“暴击人类”“验证码失效”“验证码被攻破”之类的标题。
连马斯克都出来发文称,过去的验证机器人全失效了。
最近,也有不少朋友反映登个 X(原 twitter )要三四个验证码,估计也是这个缘故。
验证码难道真就这么被AI锤爆了??
讲真,一开始看到这消息的时候,我心里也是惊了一下。
于是,我们立马找到在国内外都颇具影响力的验证码头部企业极验聊了聊,想听听他们的评价。
结果他们告诉差评,别太担心,类似的事情他们身经百战见得多了。
虽然AI确实越来越强了,但在日常生活中,最新的验证系统还是能够拦截一大波机器人的。
其实很多人可能也都知道,验证码的攻和防是个博弈的过程。
黑客那边的攻击手段不断升级,不代表验证系统这里就无动于衷。
就比如初期AI模型还没出现的时候,黑客那边破解验证码就是靠穷举法。
前期黑客会通过特定算法去攻击网站界面,用来获取这个网站的所有验证码图像。
黑客频繁向页面发送请求
在得到这些图像后,就该对它们进行标注了,也就是让人类给出标准答案。
但用当地的人工标注,总归是一笔不小的费用,于是黑客就把这些任务外包出去,就是我们常说的打码工。
像东南亚、拉美、非洲那些地区,单价基本在一分钱一张。
折下来,黑客 10天就能搞掉一个 30万张的图库,并且成本还能控制在四五百。
这样搞好之后,黑客就有了自己的一个验证码数据库。
破解的时候,就是简单的查答案、写答案过程。
当然,验证系统也得防守。
前面提到既然你机器人搞数据库来破解,那我验证平台就定期更新数据库,并且每次更新数万张。
直接用成本搞垮你……
目前,国内普遍的验证平台已经差不多可以做到一周更新一次的频率,最快的都能到 1 小时更新一次。
这个更新频率,换天王老子来也远远吃不消。
然鹅转折又到了,这几年来, AI 迎来井喷期。
从自然语言处理,到计算机视觉,那研究成果是一个接着一个。
在验证码这块儿,类似开头 AI 破解速度超过人类的消息也是不断传出。
验证系统也在不断上强度。
可能系统一波小更新,就能让上面的 AI失效。而极验的朋友就告诉差评,前面论文所谈及的验证码的 AI 识别率,其实都不说是小更新,是它们几年前没有销售的上一代产品了。
目前大家也在针对 AI 做验证系统。
打蛇打七寸,防AI当然也得从它的软肋下手。
一旦我们摸清了 CV(计算机视觉)领域的主要模型的原理,它的软肋就是手拿把掐的事。
这些图片识别的AI一大缺点就是会像人类一样产生视觉误差。
比如下面这张图,世超也是辨认了好久才认出这是一个人和狗的错位照。
目前图像识别主流的方法就两种,一种靠分类识别,另一种靠相似度识别。
比如对抗分类模型,系统直接把验证码图中的一些物体粗暴地替换成 AI 不容易分类的,这样一来它识别物体的准确率自然就降下来了,主打一个绕道走。
相似度模型的话,则是通过提前模糊掉物体的标志性特点,让 AI 识别不出来。
就比如下面花环中的字符,直接用工具对字符轮廓做一些干扰处理。
除了找软肋,我们还可以换个角度看,AI破解验证码,他背后也是人在控制,用什么模型,投喂什么数据也都是可以操控的事。
既然黑客能用 AI 做工具,那验证系统也能用 AI 来防御。
也就是说,让 AI 破解 AI 生成的验证图片。最典型的就是 AIGC 的一些应用了。
前不久那个把字融到建筑上的照片很火,就可以试着把这样的照片丢给 AI 看它能不能认出来。
就目前 AI 破解的水准,这种图它们暂时还拿捏不住。
甚至有网友想出了个损招儿:AI 出了名的弱点不就是手嘛,那让它猜猜下面哪个是真正的人手?
你觉得这道题 AI 能解出来吗?
现在验证码已经正式迎来了“用魔法打败魔法”的时代。
可能还会有朋友担心,万一 AI 真的能绕过验证码,那该怎么办?
大可放心,就算机器人突破了,验证系统还有另外一道隐形的防线。
不妨设想一下,一般哪种情况下黑客才会用机器人破解验证码?
设置验证码的场景无非是在一些软件注册、登录界面,或者投票、抢票网页等等。
黑客破解验证码要么是为了恶意爬虫获取信息,要么就是抢票、刷票。
但在这样的场景下它们都有一些共性,要数次访问网站或软件页面。
这时,隐形拦截就会出手。
除了我们能看到的这些数字图片验证码之外,在用户操作的过程中,验证系统也会对操作环境进行判别。
这些环境就包括你用的啥设备,浏览器环境比如 IP 地址,访问次数如何,甚至你的鼠标操作轨迹是怎样的。
就拿浏览器环境来说,正常人肯定不会快速频繁地去刷新登录一个网页。
黑客们就不一定了,频繁访问页面是他们必须要做的。
举个例子,如果黑客要攻击的是下面这种验证码,让你依次点汉字。
在短时间内,他们肯定会访问成千上万次网页,遇到同样的验证题目不可避免。
照他们这样每次都点同样的位置,系统再不判定是机器人就真有点说不过去了。
但这毕竟是隐形门槛,并且还得累积到一定程度上才能识别出机器人,所以系统关键还是要做好前面提到的验证码识别。
总结下来,这场验证系统与黑客之间的攻防战不会停歇,没有一劳永逸的方法, AI 的出现只不过在技术层面上拉高了这场“战争”的 level 。
更重要的是,至少在短时间内,验证码不会消失,也不会失效。