當前位置:首頁 > 新聞中心 > 媒體掃描

媒體掃描

【前沿科學】多模態人機對話:交互式學習能力愈發重要

  • 发表日期:2019-07-26 【 【打印】【關閉】
  •   自計算機産生以來,讓計算機以更高效便捷的自然對話方式,來協助人類完成任務一直是人類的夢想。在語音識別、語言理解、對話管理、語言生成、語音合成等技術充分發展的基礎上,多模態自然人機對話成爲人機協同完成任務的一種重要形式。現在,人機對話系統已經由早期的電話語音訂票、面向問答的語音搜索爲主,發展到現在的語音對話爲主的人機協同閱讀和人機協同學習等。然而,由于語音識別引擎帶來的識別錯誤還難以完全避免,言語個性化及上下文省略帶來的語義二義性等因素,計算機應答辭不達意,致使用戶困惑,無法完成對話的情況通常可見。   

      針對這種情況,研究者們在不斷提高語音識別率和口語解析算法的同時,也引入基于對話的多模態信息融合的模式,提升計算機對用戶意圖理解的准確性。盡管如此,多模態信息融合,要使計算機做到和人一樣自然流暢交流,並在交互中完成任務依然比較困難,難點首先在于依舊缺乏一種面向交互的有效的多模態信息融合機制;其次在于人機協同期間,目前計算機缺乏有效的從交互中學習知識的機制。 

      多模态交互性學習是一个非常动态和广泛的研究領域,本文从对话的角度,讨论对话主导的多模态信息融合以及交互學習对于人机协同用戶体验的提升。 

      言語意圖理解多模態交互學習的挑戰 

      對話主導的多模態交互學習與傳統的多模態人機對話相比,除了包含基于多模態信息獲取、感知與融合的對話管理模塊外,主要不同之處在于,前者具有由意圖分類、知識提取、交互知識管理構成的對話交互學習對話管理模型。 

      1 具有對話交互學習能力的對話管理模型 

      1给出了对话交互學習对话管理模型的多模态人机对话系统结构,其中以虚线连接的白底部分方框是传统的多模态人机对话流程,而实线箭头连接的灰色部分方框构成对话交互學習对话管理模型的重要模块。其中,意圖分类主要用于判断当前的对话内容是否包含用戶的教授意圖,如果处于用戶教授状态,则系统转入交互學習状态,需要根据言语知识进行知识提取。如果用戶没有教授意圖,则系统按照传统模型进行人机对话管理。 

      有学者将人机对话任务分为任务导向和非任务导向的两种类别,对话交互引入的知识需要根据用戶对话意圖找到最合适的回答或者反馈。无论任务导向还是非任务导向的人机对话,新旧知识融合的目的在于使得计算机理解了交互學習的知识,其难点在于新知识和原有知识的有效融合。 

      相對于傳統的單一模態交互方式,對話主導的多模態人機交互方式,在移動交互和自然交互存在著更爲廣泛的應用潛力,如智能家居、智能人機對話、體感交互、教育等。近年來,人工智能技術使得單一模態認知、感知技術,如人臉識別情感理解、手勢理解、姿態分析、觸覺等性能得到快速提升,計算機能夠比較准確理解用戶單模態行爲。因此,對話主導的多模態人機對話主要的目標及難點均在與如何使得多種交互信息與對話內容有機的結合起來。 

      对话主导的交互系统,言语信息通常包含了交互任务,然而在一些对话省略的情况下,其他更多的模态对言语中意圖的理解有协助作用。如,我们之前根据不同模态对语音交互的影响,把它们与语音信号的关系,处理方式分为三种模式:信息互补模式、信息融合模式和信息独立模式。然后,根据语音识别、表情跟踪和识别、身体姿态跟踪和识别、情感识别的结果,进行用戶多模态信息管理。对于多种模态信息融合其真正难点在于各模态信号的表示差别迥异,这使得多种模态信息融合时间点难以得到准确的表达,多模态信息难以统一描述。 

      自我對話機制對話交互學習的創新探索 

      根據對話任務的劃分,對話交互學習也可以分爲非任務導向和任務導向的對話交互學習。 

      非任務導向的對話交互學習通常發生在用戶對計算機的反饋不滿意,用戶希望能告訴計算機答案,使得計算機快速學習到自己的喜好。例如下面的對話:    

      用戶:“豆腐腦是鹹的還是甜的?” 

      機器人:“有甜的也有鹹的,關鍵看你想怎麽樣!” 

      用戶:“我覺得鹹的更好。     

      上述对话中,用戶对機器人的回答表达了自己的观点,对于用戶观点,在一定程度上可以认为是知识的教授。这种情况下,用戶更希望的是機器人能够针对它的观点进行回答,但目前的对话系统往往是直接返回知识库的答案或者给以模棱两可的回复,例如我也覺得你覺得什麽就是什麽等。虽然这样的回复可以减少机器的正面回答及回答的错误率,但带给用戶的感觉是计算机并没有领会用戶交流或者教授的意圖,这样的对话体验并不友好。 

      为了能够在对话过程中针对用戶教授意圖,做出与用戶教授的内容相关的答案反馈,自动化所副研究员楊明浩提出了一种基于自我对话机制的面向用戶教授意圖的答案反馈方法,使得计算机能够在与用戶的对话过程中,通过自我对话的方式挖掘与当前对话话题相关的更深层次信息,然后综合分析这些信息,对用戶进行反馈。其框圖如圖2所示。 

      2 非任務導向的對話學習

      基于自我对话机制的用戶教授意圖的答案提取模型 

      2中,用戶输入的意圖主要有三类:闲聊意圖、教授意圖以及询问意圖。三种意圖的主要含义为,闲聊意圖是在非教授意圖时,算法将默认意圖为闲聊意圖;教授意圖是当用戶对话包含人对计算机进行新知识的教授或错误知识的纠正的意圖时,属于教授意圖;询问意圖是主要用来计算对话语句是问句的概率值。三种意圖的分类方法采用的是,2016年自动化所语音交互团队提出从历史记录短文本分类方法。后续的对话历史、从互联网公开搜索引擎得到的知识、用戶传授知识的融合是核心模块。 

      如果意圖判断为教授意圖,根据对话历史来计算历史中当前对话语句对应问题匹配的用戶问句;在获得问句后,系统根据问句和用戶教授内容到互联网获取相关话题的更多答案;对获取的答案集,将摘要抽取的结果作为对用戶对话的反馈。在摘要抽取过程中,如果知识的数量较多,需要先对答案集信息进行聚类,提取与主题更加接近的一组进行摘要抽取,如果信息数量较少,可以直接进行摘要抽取。 

      基于自我对话机制,面向用戶教授意圖的对话學習反馈方法,通过启动多个对话代理,将用戶的答案引入互联网公开的问答引擎,并模拟多轮对话,将获得的更多答案融合抽取摘要,最后将投票更多的答案返回。实验表明,这种基于自我对话机制,面向用戶教授意圖的对话學習反馈方法返回的答案,相对于原来的直接返回知识库的答案或者给以模棱两可的回复,给与了用戶更好的对话感受。 

       智能機械臂對話交互的有效應用 

      面向任务导向的对话學習,相对于非任務導向的對話交互學習,具有更广泛的应用场景,如面向儿童的阅读陪伴、外语學習等。相对于传统的任务导向的人机对话,对话交互學習技术可增加教育产品的趣味性,使得機器人更拟人。2017年,團隊研發了一個智能機械臂系統,該系統能夠與小孩對話,並且通過對話機交互學習漢字書寫方式,包括筆畫與筆順的能力,在兒童教育的陪伴學習方面具有一定價值。 

      3 任務導向的對話交互學習:人類書寫順序的智能機械臂 

      3给出了对话學習人類書寫順序的智能機械臂大概流程。系统总共分为三个主要模块:信息输入、关键技术以及输出反馈。系统的输入信息模块包含用戶的语音信息以及摄像头观察到的文字的圖像信息。圖3中灰色部分为本系统关键技术模块,主要包含两部分:一是,通过对用戶的语音信息进行分析,可以获得用戶想要写的关键字及用戶意圖,并根据当前状态进行对话管理;二是,通过对摄像头看到的圖像信息进行分析,对检测到的汉字进行自动笔画拆分和笔顺提取,对于正在教授的字,跟踪笔迹顺序,學習新写法。最后输出反馈,通过对话管理,机械臂会以对话的形式进行反馈与用戶交互,并根据调用机械臂的写字程序,書寫需要写的字。     

      此智能机械臂的多模态对话管理模型如圖4所示,對話狀態的跳轉引導著系統交互學習的過程,共包括初始狀態”“查詢記憶”“書寫”“學習”“評價等意圖。这些状态分别被来自用戶语音输入”“用戶圖像输入”“用戶写字要求”“用戶評價等多模態信息驅動。 

      4 对话學習机械臂的多模态对话管理模型     

      根据多模态信息融合后的意圖分类,机械臂在學習过的知识中没有查到当前書寫信息,或者用戶给出负向評價時,系統進入學習状态。当用戶对机械臂學習后呈现書寫满意时,机械臂记录当前學習的知识到数据库中,完成知识融合。实验中讨论了67名儿童被试者与机械臂系统对话交互學習体验和评测数据,超过2/3的儿童认可这样的陪伴性交互學習系统。 

      多模態信息融合具有持續增長能力是關鍵 

      本文讨论的两个对话交互學習的例子,在新旧知识融合上分别考虑了历史对话信息、互联网开放引擎知识、用戶知识的融合以及写字顺序和笔画圖象的融合。实际上,人机交互应用中,如家庭服务機器人、智能教育等,用戶的行为更加开放自由,交互过程也可能出现更多新的不可预测因素,传统的交互模型以及多模态信息融合方法依旧还需要发展。 

      要适应人机交互中用戶行为自由、交互环境变化的特点,对话交互學習技术需要使得计算机具有伴随人机交互任务,在新的环境里和用戶一起學習成长的能力,包括准确判断用戶教授意圖;准确归纳用戶传授知识到已有知识;新旧知识融合后,不影响原有知识的理解准确度,同时新旧知识得到公共增长。目前,已有的人工智能方法部分,对准确判断用戶教授意圖和准确归纳用戶传授知识到已有知识进行了探索,在一些数据集上取得一定的成果,然而在多模态人机交互应用方面,依旧缺乏一个同时满足上诉三个特点的、比较普适的多模态对话交互學習模型。构建出具有增长能力的多模态对话交互學習信息融合模型,使得计算机系统具有在与用戶的交互中學習、理解并整合新知识到已有知识的能力,将是多模态自然人机对话技术的一个重要的突破方向。 

     

    作者:

    楊明浩  副研究員,碩士生導師

    陶建華  研究員,博士生導師。自动化所所长特聘助理,模式识别国家重点实验室副主任,中欧信息、自动化与应用数学联合实验室主任

    (原載于《前沿科學》2019年第2期