东芝开发出新集音技术,无需预先学习即可区分6人语音

2016-10-270阅读0

  

  东芝开发出了多人围着一张桌子同时说话时也能锁定说话人并针对每位说话人采集声音的语音处理技术。其特点是,不需要提前学习说话人的特点,使用由平板电脑及其安装的麦克风阵列组成的小型系统即可处理。

  开发该技术时设想的使用场景是,在距离麦克风阵列1m半径内存在多名说话人。比如,4~6人左右围着小型桌开会,以及店铺内的店员与顾客面对面销售商品等场景(图1)。开发目的是在多人同时讲话时,采集每位说话人的声音。据东芝介绍,如果在采集声音之后进行语音识别,就能制作出每个人的发言记录,这有助于减少整理会议记录的负担,改善店员与顾客面对面销售商品的接待方式等。

  

图1:此次的技术瞄准的用途 东芝的幻灯资料。

  东芝表示,以前也有分离出说话人来采集声音的技术。不过,这些技术需要针对每位说话人使用专用麦克风,或者需要提前学习(录音和分析)所有说话人的测试语音,并制作出用来分离说话人的过滤器,操作起来十分麻烦。

  如果使用此次的技术,只要在多位说话人的中间附近放置麦克风阵列,并具备平板电脑的运算能力(相当于英特尔的MPU“Atom”),无需提前学习,就能实时分离出说话人来采集声音。记者采访时,使用的是试制的麦克风阵列。这是一种按照1.6cm的间隔安装6个人使用的MEMS麦克风的小型麦克风阵列,安装在平板电脑的侧边上(图2)。

  

图2:在平板电脑上执行(左)和麦克风阵列的放大图(右) 东芝的图片。

  分两个阶段来处理

  此次技术的概要如下。先准备内置有n个麦克风(数量与说话人相同或更多)的麦克风阵列,然后分两个阶段进行分离集音(图3)。第1阶段是以说话人为单位分离混杂在一起的声音。第2阶段是推断分离出来的声音是哪位说话人发出的。

  

图3:开发技术的概要 东芝的幻灯资料。

  第1阶段的处理如下。说话人发出的声音(音源)和麦克风采集的声音(观测)之间的关系一般可用n×n矩阵(称为“混合矩阵”)来表示(图4)。因此,只要知道混合矩阵的反矩阵(称为“分离矩阵”),就能从麦克风采集的声音中获得每位说话人发出的声音。

  

图4:说话人与采集到的声音的关系 东芝的幻灯资料。

  如果不提前学习,求出反矩阵的运算量就会很大,实时处理十分困难。因此,以前都是加大间隔来求得分离矩阵,但这样做会导致分离精度下降(图5)。

  

图5:传统技术存在的课题 东芝的幻灯资料。

  因此,东芝此次学习了空间特性,并根据该特性更新了分离矩阵(图6)。空间特性是麦克风和说话人之间的空间关系(从麦克风角度观察到的说话人的位置信息),无需很大的运算量就能求出。这样便能以高精度实时分离语音。

  

图6:新技术的第1阶段 东芝的幻灯资料。

  第2阶段是推断说话人的相对位置,将分离出来的语音分配给说话人。推断时,判定了说话人到各麦克风的声音到达时间差和角度的关系(图7)。执行第2阶段之后,即便说话人的头部或身体发生倾斜,与麦克风的位置关系稍有变化,也能进行高精度分离。另外,此次的技术并未考虑(无法处理)说话人的座位顺序改变或者说话人在会议室内走动等明显的位置关系变化。

  

图7:新技术的第2阶段 东芝的幻灯资料。

  2017年度内通过云服务实现实用化

  东芝介绍了在旅游问讯处试用新技术的结果(图8)。此次尝试了让接待人员与接受向导服务的两名客人进行对话。接待人员的语音性能距离实用水平只差一步。而且,与人工分辨麦克风阵列录制的语音并对其进行分离相比,使用此次的技术能够获得更高的分离精度。

  

图8:试用结果 东芝的幻灯资料。

  东芝预定今后进一步进行研发,2017年度内为该公司的云服务“RECAIUS”(参阅本站报道)配备此次的技术。(记者:小岛 郁太郎)

  (全文完)