【行业资讯】江西图书馆机器人吵架背后涉及的人工智能技术_行业快讯_新闻中心__2026第18届深圳国际工业自动化及机器人展览会【官方网站】

几天前，江西图书馆里，两个机器人为了争抢粉丝而“拌嘴”。这是非常有趣的一件事儿，也折射出人工智能产业如火如荼的发展现状。

今天，我来简述这次“拌嘴”背后涉及到的人工智能技术。

人工智能时代的机器人

语音识别技术

首先，机器人要能识别人类的语言，并把对方说话的语音音频信号转换成电脑文本（我们每天往word里输入的东西），这就是语音识别技术。

全球有很多种语言，中国有很多种方言。电脑需要先通过神经网络、深度学习，建立各种语言、方言的语音声纹样本库。

然后，通过麦克风，实时采集另一个机器人说话的音频信号，过滤掉背景噪声（四周人类的哈哈声），切分成句子，用样本库匹配，转成文本。

最后自然语言处理（NLP）技术，调整识别结果，使之成为一句通顺的、高置信度的话。

语音合成技术

机器人说出自己的不满

反之，机器人在“思考”后，得知对方抢走了自己的粉丝，需要把“不满”的思考结果“说”出来，这就是语音合成技术。

为了能让机器人开口说话，预先要建立声纹样本库，把电脑文本转换成人类语音音频信号，再通过音箱播放出来。

这步看似比识别容易，但要能实现多语言、男女声、方言、多音字、音调、语气等说话效果，就不那么容易了。

神经网络与深度学习技术

神经网络模拟人脑神经元

神经网络是人工智能技术的基石，它模拟人脑神经元的工作原理，通过深度学习等训练方法，调整神经元之间的联系权重，模拟人脑的处理机制，实现近似效果。

深度学习是训练神经网络的一种方法。

早期的训练方法，需要人类去建立大量样本库，比如手写数字0-9的图片与标签，告诉机器输入的图片、图片的样本特征、图片的识别结果。最难也最重要的是定义样本特征。

深度学习通过多层网络等技术，自动提取样本特征，效果远好于早期算法。

交互语料库与自然语言处理技术

自然语言处理

预先建立人类说话的常用表达、词槽、词典、前置语境、后置语境等，形成交互语料库。

自然语言处理（NLP）是把人类语言的文本段落、句子，依靠知识图谱，按照联合概率，分解成词，判断词性、语气、情绪。

通过语料库与自然语言处理技术，机器人识别出另一个机器人说话的意图，结构化分解成多个关键词，再从话术库里提取最正确的作答信息，组建出反馈的话。最后通过语音合成技术播放出去。

计算机视觉

最后提一提计算机视觉。

计算机视觉是通过机器人的前置摄像头，实时采集前方画面，并对画面内容进行分析，做出合理的反馈。这也是“自动驾驶汽车”等应用的最核心部件。

图书馆这“二位”，一边像人类那样去“拌嘴”，一边根据吵架内容去调整自己的屏幕朝向！的确彰显出人工智能产业与技术比较成熟的信号。

每个科学家都有自己的梦想。以往，我梦想的代表是任天堂卡带游戏机、电脑台式机、集成电路主板。未来，我梦想的代表是人工智能、机器人、高科技带来的巨大生产力与变革。愿人工智能技术可以解决人类面临的饥荒、环境、争端等诸多问题！