新方向探索 数据处理方法、基本思想和技术思路
1. 数据处理层面,语义向量空间或进一步拓宽入口。
看见了技术的“天花板”,很多专家学者开始提出“小数据”的概念,然而清华大学人工智能学院院长张钹院士却不认为数据量的大小是当下的根本问题所在,他指出,传统的人工智能三要素将不能带来真正的智能。
清华大学人工智能学院院长、中国科学院院士 张钹
“评价人工智能获得的成果,我们可以从这五件事来看:深蓝打败人类国际象棋冠军;IBM在电视知识竞赛中打败了美国的前两个冠军;2015年微软在ImageNet上做图象识别,误识率略低于人类;百度、讯飞也都宣布在单句的中文语音识别上识别准确度略低于人类和AlphaGo打败了李世石。前两件事归为一类,后三件事可归为另一类。
大家一致认为,这五件事得以发生的三要素是:大数据、算力的提升和非常好的人工智能算法。但我认为大家忽略了一项因素,就是这所有的成果必须建立在一个合适的场景下。”
换言之,当下人工智能的发展避不开种种限制条件,因而智能的机器也只能够照章办事,没有任何灵活性,也达不到人们想要的智能,而这也就是当下AI的发展状态。
“我们现在的人工智能基本方法有缺陷,而我们必须走向具有理解能力的AI,这才是真正的人工智能。”张钹院士在演讲中指出。
那解决办法是什么呢?通过循序渐进,张院士在演讲中给出了思路,并指明语义向量空间这一技术方向。
“首先,需要明确的是,现有的机器缺乏推理能力的原因在于它没有常识。”
张钹院士通过实验验证,常识的建立确实会极大程度的提升机器的性能。而为机器建立常识库也成为人工智能企业进一步提升系统性能的第一步。“美国在1984年就搞了这样一个常识库的工程,做到现在还没完全做出来。可见,要走向真正的人工智能,有理解的人工智能,是一条很漫长的路。”
但即使在建立常识库的基础上,做到有理解能力的人工智能依然不容易。想要提升智能的第二步,在张院士看来,就是将感性和知识的世界统一起来,而这将为人工智能的发展带来一次质的飞跃。
“深度学习之所以能够极大的促进人工智能的发展,技术上的关键在于人们能够将获取的标量数据转变为向量,从而用到机器上。但至今为止,将行为(特征向量)和数据(符号向量)结合起来使用始终是科研的难点,而这就限制了机器变得更‘智能’。”
不仅如此,从安全层面来看,纯数据驱动的系统也存在很大问题——鲁棒性很差,易受到很大的干扰。因而,在大量样本的训练下,系统仍会犯重大的错误。如商汤、旷视等头部企业也表示,即便训练出的系统模型准确率高达99%,但在实际应用中,系统仍然会犯很多“弱智”的错误。
“我们现在想出的解决办法是这样的,就是把这特征向量空间和符号向量投射到一个空间去,这个空间我们把它叫做语义向量空间。”
怎么做?张院士表示:
第一,要通过Embedding(嵌入)把符号变成向量,尽量保持语义不丢失;
第二就是Raising(提升),结合神经学科,把特征空间提升到语义空间。
“只有解决这些问题,我们才能够建立一个统一的理论。因为在过去,对感知和认知的处理方法是不同的,因而两者不在同一维度,无法统一处理。但如果我们能够将感知和认知投射到同一空间,我们就可以建立一个统一的理论框架,并在语义向量空间里解决理解问题。这是我们的目标,但是这项工作是非常艰巨。”