“其实我之前一直很发愁。”郭长征嘆了口气,“你知道搞我们这一行的痛点在哪里。”

“数据。”楚一航脱口而出,直接指出了核心问题。

“没错,就是数据。”郭长征拍了一下大腿。

“算法逻辑写得再好,没有海量的数据去投喂,最后训练出来的模型就是个弱智。”郭长征抱怨道。

楚一航深有同感地点头。

“图像识別这个领域,现在学术界主流还在搞特徵工程,用支持向量机那些老套路。”郭长征继续说道。

“大家都在手工提取图像特徵,效率极低,而且准確率一直上不去。”

“我认定神经网络才是未来,但是苦於没有一个庞大且標註清晰的图像资料库。”

郭长征说到这里,语气突然变得兴奋起来。

“不过,我今天下午查资料的时候,发现了一个绝佳的契机。”

“什么契机?”楚一航也被勾起了好奇心。

“美国那边有个叫李飞飞的华裔教授,她搞了一个庞大的项目,叫imagenet。”郭长征说道。

此时,有必要详细拆解一下这个名为imagenet的庞然大物。

在2009年这个时间节点,人工智慧正处於一个不上不下的尷尬期。

传统的专家系统和逻辑推演已经走到了死胡同。

机器学习虽然兴起,但大部分学者都在研究如何精雕细琢算法本身。

大家都在追求用最少的数据,通过最复杂的数学公式来实现目標。

这种思路在当时是绝对的主流。

但李飞飞的思路截然相反。

她认为,想要让计算机认出一只猫,不应该去教计算机猫有几根鬍子、耳朵呈什么角度。

而是应该直接给计算机看几百万张猫的照片。

只要看得足够多,计算机自己就能总结出规律。

这个思路在当时被很多传统学术界的大牛嘲笑。

因为收集並標註几百万、上千万张图片,是一项非常繁琐、耗时且看起来毫无技术含量的体力活。

但这恰恰是深度学习爆发的绝对前提条件。

imagenet项目就是在这个背景下诞生的。

这个项目致力於构建一个包含数千万张图片的庞大资料库。

並且每一张图片都要经过人工的精准標註。

比如这张图片里是一只狗,那张图片里是一辆车。

为了完成这庞大的工作量,李飞飞团队甚至动用了亚马逊的眾包平台。

僱佣了全球各地成千上万的网络劳工,在线为这些图片打標籤。

这是一个疯狂且伟大的工程。

郭长征向楚一航详细复述了他今天查阅到的关於imagenet的资料。

楚一航听完,眼睛亮了起来。

“这思路太超前了。”楚一航讚嘆道。

“大力出奇蹟,用绝对的数据量去碾压算法的不足,这非常符合我们课题的暴力美学。”楚一航给出了极高的评价。

“对吧!”郭长征见楚一航认同,更加激动了。

“这个数据集已经初具规模,包含了大量標註好的图片。”郭长征拿过旁边的公文包,掏出一份列印出来的资料。

“而且,我得到確切消息,过段时间,他们会基於这个数据集,举办第一届大规模视觉识別挑战赛。”

郭长徵用手指重重地敲击著列印纸上的比赛信息。

“这就太有意思了。”楚一航拿过资料看了起来。

“有了这个数据集,我课题的数据来源问题就彻底解决了。”郭长征满脸兴奋。

“这就省去了我们自己在实验室里苦哈哈去收集图片、打標籤的工作。”

“而且最关键的是,这个比赛提供了一个绝对公平、公开的测试平台。”

其他类型小说相关阅读More+

在魔物娘世界艰难求生

佚名

重生之我在工人文化宫打杂

佚名

西游:从观音招亲开始

佚名

从种土豆开始的反派苟活日记

佚名

官场:分手后,从秘书开始破局

佚名

游戏人生从摄影开始

佚名