第(1/3)页 2014年6月3日,清晨。 ArXiv,全球最大的学术预印本平台。这东西对搞AI的研究者来说,就是学术圈的朋友圈。 论文上传后二十四到四十八小时内全球可见,不用等同行评审,不用排队走期刊流程,直接面向全世界亮牌。 每天早上起来第一件事,刷ArXiv。 这是所有做深度学习的人的肌肉记忆。 今天早上,这个朋友圈里炸了一颗雷。 论文标题:Deep ReSidUal Learning fOr Image ReCOgnitiOn。 作者:ShaOqing Ren, YUhang Zheng, LiqiU Chen。 单位:JiUTian AI Lab, EChO TeChnOlOgy, China。 斯坦福大学盖茨计算机科学大楼三层,博士后林之远端着咖啡走进办公区,习惯性刷新了CS.CV板块。 他的手停住了,咖啡差点洒出来。 152层卷积神经网络。ImageNet验证集TOp-5错误率,3.57%。 人类标注员的平均水平是5.1%。去年ImageNet竞赛冠军GOOgLeNet是6.67%。这篇论文直接把数字按到了3.57%。 “你们过来看看这个。” 林之远的声音不大,但语调不对。 旁边几个人抬起头,三分钟后,实验室十一个人全围在他屏幕前面。 “等等,152层?”一个叫Kevin的白人博士生最先反应过来, “不可能。超过三十层的网络根本没法训练,梯度消失会把信号吃干净。这是常识。” “你往下看。”林之远指着论文第三页的示意图, “他们加了一个跳跃连接,把输入直接加到输出上。梯度可以跳过中间层回传。” Kevin盯着那张图看了十几秒。 “这也太简单了吧。” “简单?”坐后面的赵明推了推眼镜, “最好的想法往往都简单。问题是你没想到。” Kevin的脸色不好看。 实验室主任PrOfeSSOr WilliamS也走了过来。 他花了五分钟把论文从头到尾扫了一遍,表情从惊讶慢慢变沉。 “这个结果如果可以复现,整个领域的范式都要变。” 他看了一眼作者单位。 “JiUTian AI Lab。EChO TeChnOlOgy。这是什么单词?J-I-U-T-I-A-N,有人知道这是哪儿的吗?” 没人回答。Kevin盯着那个拼音,舌头打着结尝试发音: “朱……田?或者……久提安?听起来像是个拼写错误。” “中国的。”林之远实在听不下去他那惨不忍睹的发音,冷声开口, “这是汉语拼音。JiUTian,对应的中文意思是‘九天’,指代极高的天空,或者是天的最高处。通讯地址标的四川。” 安静了两秒。 Kevin率先打破沉默:“四川?那是哪里?他们拿什么训练152层网络?这个规模的算力需求,谷歌大脑都得排队。一个中国民间实验室?” 他顿了顿,耸了耸肩:“也许他们伪造了数据。” 办公区气氛一下子变了。 第(1/3)页