几天前,江西图书馆里,两个机器人为了争抢粉丝而“拌嘴”。这是非常有趣的一件事儿,也折射出人工智能产业如火如荼的发展现状。
今天,我来简述这次“拌嘴”背后涉及到的人工智能技术。
人工智能时代的机器人
语音识别技术
语音识别技术
首先,机器人要能识别人类的语言,并把对方说话的语音音频信号转换成电脑文本(我们每天往word里输入的东西),这就是语音识别技术。
全球有很多种语言,中国有很多种方言。电脑需要先通过神经网络、深度学习,建立各种语言、方言的语音声纹样本库。
然后,通过麦克风,实时采集另一个机器人说话的音频信号,过滤掉背景噪声(四周人类的哈哈声),切分成句子,用样本库匹配,转成文本。
最后自然语言处理(NLP)技术,调整识别结果,使之成为一句通顺的、高置信度的话。
语音合成技术
机器人说出自己的不满
反之,机器人在“思考”后,得知对方抢走了自己的粉丝,需要把“不满”的思考结果“说”出来,这就是语音合成技术。
为了能让机器人开口说话,预先要建立声纹样本库,把电脑文本转换成人类语音音频信号,再通过音箱播放出来。
这步看似比识别容易,但要能实现多语言、男女声、方言、多音字、音调、语气等说话效果,就不那么容易了。
神经网络与深度学习技术
神经网络模拟人脑神经元
神经网络是人工智能技术的基石,它模拟人脑神经元的工作原理,通过深度学习等训练方法,调整神经元之间的联系权重,模拟人脑的处理机制,实现近似效果。
深度学习是训练神经网络的一种方法。
早期的训练方法,需要人类去建立大量样本库,比如手写数字0-9的图片与标签,告诉机器输入的图片、图片的样本特征、图片的识别结果。最难也最重要的是定义样本特征。
深度学习通过多层网络等技术,自动提取样本特征,效果远好于早期算法。
交互语料库与自然语言处理技术

预先建立人类说话的常用表达、词槽、词典、前置语境、后置语境等,形成交互语料库。
自然语言处理(NLP)是把人类语言的文本段落、句子,依靠知识图谱,按照联合概率,分解成词,判断词性、语气、情绪。
通过语料库与自然语言处理技术,机器人识别出另一个机器人说话的意图,结构化分解成多个关键词,再从话术库里提取最正确的作答信息,组建出反馈的话。最后通过语音合成技术播放出去。
计算机视觉
计算机视觉
最后提一提计算机视觉。
计算机视觉是通过机器人的前置摄像头,实时采集前方画面,并对画面内容进行分析,做出合理的反馈。这也是“自动驾驶汽车”等应用的最核心部件。
图书馆这“二位”,一边像人类那样去“拌嘴”,一边根据吵架内容去调整自己的屏幕朝向!的确彰显出人工智能产业与技术比较成熟的信号。
每个科学家都有自己的梦想。以往,我梦想的代表是任天堂卡带游戏机、电脑台式机、集成电路主板。未来,我梦想的代表是人工智能、机器人、高科技带来的巨大生产力与变革。愿人工智能技术可以解决人类面临的饥荒、环境、争端等诸多问题!