传播电子
科学技术知识

“见人见物见精神”的展陈方式

The Way of Exhibiting the Spirit of Seeing People and Seeing Things

当前所在位置: 首页 科技之窗 博古览今 正文

验证码,图灵测试以及群智(一)

发布时间:2016/11/02浏览次数:

受所学专业的影响,小编对后缀为的词很有兴趣,于是最近盯上了我们司空见惯的一个词,验证码,不知道你们有没有听过一个专业名词叫做消息认证,实现消息认证的基本方法有两种,分别为Hash函数和MAC(消息认证码),算法的话就有很多了,包括有大名鼎鼎的MD5,SHAHMAC。闲话不多说,我们开始来讲一讲验证码。

      其实,验证码只是他的昵称,他完整的名字叫做Completely Automated Public Turing test to tell Computers and Humans Apart,(简称CAPTCHA),翻译过来就是“全自动区分计算机和人类的图灵测试”,怎么样,验证码其实还是蛮高端大气上档次的吧。这里还需要插播一条关于“图灵测试”的消息,所谓图灵测试,高端点的说法就是关于判断机器是否能够思考的研究,通俗点讲就是把人和机器放在屋子里面,怎么才能判断哪个屋子里面是人,哪个屋子里面是机器的问题。验证码是一个自动提问者,一般而言,验证码是全自动程序。这里又引出了一个有意思的问题,标准图灵测试是人类考电脑,而验证码是电脑考人类,所以又有人把验证码称之为反向图灵测试。

      这里,我们先来讲一讲,验证码的由来。老网民们大概都记得,刚开始上网的时候,是不存在验证码(capcha)这么一种东西的。这造成的结果是,垃圾评论和垃圾邮件可以轻松通过任何一个网站的注册程序,通过各种方式轰炸人民群众的眼球。

最先想要解决这一问题的是雅虎——作为互联网时代早期最重要的免费邮件提供商,他们一方面要解决用户们每天遇到的数以百计的垃圾邮件轰炸,另一方面,他们自己的免费邮箱,恰恰又是垃圾邮件的最爱——耗费无数资源所阻止的垃圾邮件,都来自于自己的服务器。这让雅虎开始认真考虑如何解决人机辨识问题。



互联网最早出现的capthca




他们找到一位当时刚刚21岁的天才——Luis von Ahn Luis Von Ahn给出的方案,就是这个让人民群众微微皱眉,但是让计算机耸肩挠头的验证码 Capcha。计算机辨识技术还很落后,对于经过扭曲、污染的文字,无法辨识。而人类却可以轻松认出这些文字。这是一个简单而巧妙的设计,计算机先是产生一个随机的字符串,然后用程序把这个字符串的图像进行随机的污染,扭曲,再显示给显示器前的人或者机器。凡是能够辨识这些字符的,即为人类。

 据Google统计,每天,地球人至少要填写2亿个验证码。平均来讲,人们搞定一个验证码需要10秒的时间。往往我们还会因为看不清楚而不得不换一个新的来输入。按照这些数据计算,人类每天在验证码上就浪费了50多万个小时。这实在是一件令人沮丧的事。Luis Von Ahn是那种追求完美的科学家。他开始思考,其中浪费的人脑智力是否能得到更好的应用呢?

 Luis Von Ahn的最终设计是,让人们用这些脑力解决一些计算机无法解决的图书数字化。

在计算机时代以前,印刷术已经存在了数百年,但这些印刷术所产生的书本和报纸等等,对于计算机来说都是模拟信号,仅以图像的形式存在,而非以数字化的形式存在。但是,早期的印刷术并不精确,文字大小不一,形象有差别。而且因为印刷品年代久远,拥有各种细微的缺损和污染。这对人眼来说不是什么大问题,但对计算机来说就麻烦了。




 目前在googleyahooyoutube等各个网站都能看到的双capcha,一个是需要辨认的文档图像,一个是计算机生成的capcha.




 因此,2002年,luis Von Ahn开始让capcha引用各种无法被计算机辨识的文字图像,目前,已经有上万网站采用他的新一代capcha。每天帮助辨识数以百万计的古老文档。

问题在于,对于最初的capcha来说,计算机实际上是知道答案的。而Luis希望人们辨识的文字,计算机实际上是不知道答案的,那如何能验证返回的答案到底是不是真的呢?

       解决这个问题的方法依然体现了Luis一贯的简洁和优美,他让人们每次辨识两个,而非一个capcha,其中一个来自于计算机随机生成的字符串,而另一个则是从文档中选取的计算机不认识的字符图像。只要人们对前一个字符串给出的答案是正确的,那么就判定,人们对后一个capcha的辨识是正确的。

 用这一方法,luiscapcha2.0 已经帮助完成了整个纽约时报130年的报纸存档数字化——这一本可能花费无数时间和资源的工程,在几个月之内就由各位网友们完成了。

当然,这是美国人在capcha中找到的人肉商机。而相对的,知道中国人和印度人怎么从capcha中寻找人肉商机吗?

 简单来说,通过一系列程序转换,亚洲劳动密集型产业把各种垃圾邮件注册、电子游戏金币农民所需要解决的capcha辨认问题,集中给几个专门负责辨认capcha的人手里,这些人的工作就是,替垃圾邮件注册软件辨认capcha,一遍他们能冒充人类,每辨认一个获得半个卢比,每天需要辨认成千上万个capcha

 讲到这里,故事还没完,这一个小小的验证码,又衍生出了一个新的词——Crowdsensing(群智),这又是一个具有跨时代意义的词。



编辑:耿佳宁  / 审核:卫卓琳  / 发布者:董婷婷

上一篇

验证码,图灵测试以及群智(二)

受所学专业的影响,小编对后缀为“码”的词很有兴趣,于是最近盯上了我们司空见惯的一个词,“验证码”,不知道你们有没有听过一个专业名词叫做“消息认证”,实现消息认证的基本方法有两种,分别为Hash函数和MAC(消...

2016/11/02

下一篇

VR行业目前面临着多大的技术瓶颈

受所学专业的影响,小编对后缀为“码”的词很有兴趣,于是最近盯上了我们司空见惯的一个词,“验证码”,不知道你们有没有听过一个专业名词叫做“消息认证”,实现消息认证的基本方法有两种,分别为Hash函数和MAC(消...

2016/11/02

  • 电话:028—61831009
  • 邮箱:bwg@uestc.edu.cn
  • 地址:成都市高新西区西源大道2006号电子科技大学清水河校区
  • 关注公众号

Copyright2015 电子科技大学版权所有