分享
 
 
 

浅谈验证码的识别技术

王朝网站推广·作者佚名  2011-12-04
窄屏简体版  字體: |||超大  

这些天出于一些需要,要求做程序识别某网站的验证码,于是潜心研究了一番,颇有心得,特此分享。

验证码识别这项工作不适合浮躁的人,它需要足够的技术和耐心。由于此技术的特殊性,任何一个被公开识别技术的验证码都会很快地失效,相关网站都会很快地更换验证码。所以本文只介绍最简单的验证码的识别和识别原理。

---------------------------

首先我选择一个最简单的验证码,找来找去,就选挑战网的评论验证码作为例子吧。随便打开挑战网一篇文章,找到发表评论处的验证码,查看其属性,获得其生成地址“ http://tiaozhan.com/checkcode.php ”。

显然,这是最简单的一类验证码:有固定的背景颜色,字符颜色,字体,连字符的坐标都是固定的。对于这类验证码,我们只需要对每个数字进行采样,建立标准库,然后应用的时候一一对照标准库,就可以轻易做到100%识别。

使用ImageCreateFromPNG函数把图片取回来,然后用imagecolorat函数取得每一个坐标点的色值,并且把第一个点的颜色确定为背景色。然后按照图像大小比例画一个表格,如果该单元对应的坐标颜色与背景色相同,不显示任何内容;反之显示黑色块。于是我们得到这样的分解图:

可以观察到,数字所占区域的y坐标是6-15,四个数字所占区域的x坐标分别为3-10,12-19,21-28,30-37。

于是建立以0-9为样本建立10个二维数组($arr_eg[0] - $arr_eg[9]),该数组每一个元素均对应该数字区域的每一个坐标,如果该坐标色值与背景相同,值为0,反之为1 。这就是我们的标准库。

识别的时候,同样取得四个数组,与标准数组一一对照,就可以精确地把四个数字识别出来。

同时附上此验证码识别程序,供大家研究。(demo.php是程序;arr.php是标准库)

附件: secode.rar (1688 字节)

-----------------------

以上的例子虽然简单,但是已经把基本原理介绍清楚了,就是 采样->建立标准库->应用->对照标准库->识别。

但是,实际应用中,遇到的往往不是如此简单的情况。比如下面是稍微复杂的一类验证码,它的背景和字符都不是纯色,还有很多干扰点,但其字符的坐标都是固定的。

首先我们对其进行去噪处理。就是首先把每个字符区域分割出来,按照出现的频率确定其主色值(字符的色值),然后去除与其相差大于一定程度的坐标,过滤之后得到目标所在的坐标数组,然后同样与标准库对照。但是这种情况下是不会精确吻合的,我们只能选择吻合度最高的昨作为结果。经过实践,识别率可以达到99%。

再难一点的,就是下面这种:使用了变色、干扰点、干扰线、变位等几种用于干扰手段。

与上一种不同,它的每一个字符所在的位置是不确定的,这就需要我们自己去确定其位置,把字符所占据的大小固定的那一个小块切出来。首先把所有的干扰点和干扰线去掉(去掉之后字符是有所“误伤”的,通常会缺1-3个像素点),得到比较干净的图,然后用一条横向和竖线去扫描它(比较形象的说法,具体如何实现请自己思考),把扫到的没有出现颜色的横竖线全部去掉,把分析范围缩到一个较小区域。然后再用竖线扫描,根据颜色的出现与否,又得到5个小区域,每个小区域再用横线扫,除去空白,得到目标区域。得到的目标区域有时候会比标准区域小想办法补全,然后对照,按吻合率最高的原则得出结果。最后识别率达90%以上。

再难一点。就是目前我研究的最难的一种了。如图,这种验证码除了干扰背景之外,每个字符的位置,大小,甚至字体都是不确定的。还好每个字符之间没有粘连。没有粘连就比较容易切字(当然要比上面那种难),切字之后字块大小不确定,所以很难建立标准库。我能想到的只有这样处理:切字之后对字块用横线或竖线扫描,根据其色块的坐标变化规律确定结果。目前正在实验中,能识别的字符还不完全,识别率也不甚理想。

---------------------

验证码识别这个问题算是人工智能和计算机视觉领域的一个难题。作为破解者,总是会处于劣势地位,而且此技术带有一定的不正当性,没有太多的研究交流,因此要做得很好,是非常困难的。而且个人对于很多OCR的技术,理解有限得很,不敢在此乱写,只能利用有限的知识,抛砖引玉而已。

本人博客: http://kuigg.com 欢迎交流

KuiGG 2008-10-26

QQ 727136

E-mail i@kuigg.com

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有