你好,机器人。我们来了!
摩尔定律
这十年的光阴背后所演变的力量,我们称之为「摩尔定律」。这其实并非一个真的定律,而是由一个叫做乔登·摩尔(Gordon Moore)的人对于事物演变过程的一种观察和总结。乔登·摩尔曾是计算机芯片公司 Intel 的创始人之一。直到 1965 年,摩尔发现了硅芯片在经过几年时间的研发后,其能力变得越发强大,而与之相关的价格却在持续不断的大幅下降。于是他发布了一篇论文,预测这样的趋势将会持续至少十年时间。这在现在听起来其实觉得是很保守的了。当时他的理论很快被发展成为一种更加准确的表示:每十八个月,计算机芯片的运算能力将翻倍,而价格将下降一半。这样的趋势目前已经维持了将近半个世纪。也正是因为这种趋势的存在,才使得我们拥有了客厅电视柜中的 PS3. 如果站在人类发展的历史长河中去审视这段时间,你会发现人类的发明创造从未以如此惊人的速度向前跃进。
【机器学习正在向人类语言领域迈进】在计算机的运算能力呈现指数式爆炸发展,并且价格也变得越来越便宜的同时,人类在编程方面的能力也越来越棒。最明显的一个例子来自于 2011 年。那时候有一个由 IBM 牵头研发的项目,名字叫做「Watson」。这个项目背后的理念是打造出来一台能够理解普通语言的计算机,使得它能够参加电视上的猜谜竞赛活动!它不仅要和普通的参赛者进行较量,还要和猜谜游戏的纪录保持者一较高下,看看这款计算机是否能够击败他们!这不禁让人们想到了 1997 年 IBM 公司研发的 Deep Blue 超级电脑(「深蓝」),它在当年的国际象棋比赛中一举击败了世界冠军盖里·卡斯帕罗夫。不过这次的「Watson」计算机所面临的挑战可比 1997 年要严峻很多。因为这要将复杂的人类交流能力纳入到计算机模式匹配当中,所需要满足的要求比之前要多太多。国际象棋其实在超级强大的计算能力面前也许只是小儿科。而一款涉及人类语言和文化的猜谜游戏,这对于纯粹的计算能力来说真的容易做到吗?
它能否胜出?这个悬念牵动着无数人的心,无论是计算机领域,机器人,又或者是未来学,它们所指的核心都在于这次 Watson 超级电脑的表现。结果出来,Watson 计算机赢了,以非常轻松的方式。尽管它的表现不是十全十美,比如它错误的认为多伦多是在美国,当问到一些具有双关语特征的词汇的时候,它会表意错误。不过,这一切都无所谓了。在为期两天的对抗竞赛中,它的得分已经超过了人类对手的佼佼者,其得分是人类最高分的三倍多!挫败的人类选手沮丧的说:「也许猜谜游戏是人类历史上第一个被电脑一脚踢出局,变得无用无趣的娱乐活动。并且我相信这并不是最后一个,这只是一个开始。」
Watson 的表现实际上就充分显示出来了机器学习方面在最近这些年所获得的进展。在处理任务的过程中,机器用于在自我提升算法的过程中,涉及两方面的内容:其一是分析;其二是预测。而机器学习的各个环节都围绕着数据统计进行展开。通过不断的测试以及出错的频率,机器会很快的知道到底哪个答案的正确率是最高的。这听起来似乎有点儿不靠谱,难道仅仅是猜么?这样我们就不得不回到「摩尔定律」这个话题上,正是因为这个定律,计算机的运算能力得到了空前的进步,机器能够以超快的速度进行一轮又一轮的试错,在非常短的时间内,机器的分析能力就能够得到实质性的提升。Google 的翻译软件就是一个非常有力的例证。你登陆 Google Translate 这个页面,在上面你可以打一些文字,然后就看到系统跳出选项,让你选择翻译的语言种类。这项翻译服务是在 2006 年推出的,不过一经推出就被人们视为「让人印象深刻的笑话」。说印象深刻,是因为没人想到真的有公司推出来机器语言翻译的服务,它竟然真的已经存在了!说是笑话,是因为翻译的精准度实在让人汗颜。但是如果你在那个时候就放弃使用 Google Translate,再也不关注它的发展,也许你就见证不了它在后面的日子里经过了怎样飞速的提升。现在最新版的 Translate 已经存在于智能手机的 App 上,你不仅仅可以打字,你还可以通过说话,系统通过你的语音进行翻译!同时,这款 App 还能够通过智能手机的摄像头扫描文本将其翻译成另外一种语言。如果你同时知晓两种语言,那么 Google Translate 的表现在你的眼中还是比较可笑的,介于糟糕和尴尬之间。但如果那是一种你完全不知道的语言,那么它所提供的服务真的是非常有价值的。想象一下你现在的手机可以随意的在匈牙利语与日本语之间转换,在马来语和依博语之间转换,这多么神奇啊!而且,更加关键的是,这项服务还都是免费的!
曾经,语言的翻译工作需要一大堆学者进行词汇的誊写和对比工作,如今机器学习的出现,使得这一进程大大加快。软件在两种平行的语言之间进行比对,主要就是通过数据来判定到底在 B 语言中的哪个句子最有可能对应上 A 语言的句子。于是,Translate 凭借着计算机超强的运算能力,将数以海量级别的文本投射到数据库,使之找出不断完善自身的「对应」水平。也许有人会说这压根不是什么所谓的「学习」。确实,它这种通过数据统计,通过最高概率来「猜」正确答案的方式并不符合人们脑海中对学习的定义。但是从广义的角度上来看,比如「鉴于从某个具体的任务出发,结果正在不断的朝着更好的方向发展」,那么它就是机器学习。
在下一章节,我们将讨论更加有趣的内容。机器自我学习的技术瓶颈到底有哪些?哪些是它即将克服的领域,哪些又是克服不了的?牛津大学的学者甚至还做出一份榜单,到底哪些工作要被机器取代?哪些又无法被取代?想知道这一切的答案?请关注本系列的下一章节!
编辑:张海云