赤木 正人 (AKAGI, Masato)教授
情報科学系,ヒューマンライフデザイン領域
◆学位
工学博士 東京工業大学
◆職歴
: 日本電信電話公社武蔵野電気通信研究所研究員(1984)、同所研究主任(1984),(株)国際電気通信基礎技術研究所(ATR)へ出向,ATR視聴覚機構研究所研究員(1986)、同研究所主任研究員(1988),NTT基礎研究所へ復帰,同所主任研究員(1990)
: 北陸先端科学技術大学院大学情報科学研究科助教授(1992)
◆専門分野
聴覚・音声知覚モデル,音声情報処理,音声のディジタル信号処理
◆研究キーワード
音波形の信号処理
◆研究課題
音声に含まれる非言語情報の研究
音声により送受される情報は,言語のみならず,非言語情報である感情,年齢・性別,話者の社会的ステータスまで様々である.本研究では,音声コミュニケーションにおける非言語情報の役割を明らかにすることを目的として,歌声,感情音声,個人性等をターゲットとして,非言語情報の生成・知覚,合成・認識について研究調査を行っている.現在までに,非言語情報付加のための様々な手法の開発,これらを用いた歌声,感情音声の合成,歌声知覚における脳活動計測等を実施している.最近の成果として,歌声合成のコンテストであるInterSpeech2007 Synthesis of Singing Challengeにおいて第1位を獲得した.また,この研究は,総務省戦略的情報通信研究開発推進制度(SCOPE)に採択されている.今後は,非言語情報の生成・知覚の研究を足がかりに,これらに関わる脳活動についての研究に内容を広げる予定である. 備考
音声中の雑音抑圧
雑音が存在する環境においては,人の音声了解度は著しく低下する.また,機械による音声認識システムにとっても,認識率の低下は免れない.そこで本研究では,実環境に存在する雑音・残響に邪魔されないコミュニケーションの確立を目指して.雑音抑圧&音声強調(マイクロホンアレイ,音源分離),骨導音声,残響抑圧について調査研究を行っている.また,これらを応用して,実環境での頑健な音声特徴抽出についても研究を行っている.現在までに,李助教とともにトヨタと共同して自動車内音声認識用マイクロホンアレイの開発,(株)テクニカフクイと共同して会議用マイクロホンアレイの試作品製作等を行い,成果として,特許2件が公開となっている.骨導音声,残響抑圧についても,鵜木准教授を中心として,精力的に研究を行っている.今後は,雑音・残響抑圧法の福祉機器(特にHearing Aid)への応用,高雑音環境での音声通信などへの応用を試みる予定である.
カクテルパーティ効果のモデル化
人の雑音中での音声抽出過程(音源分離過程:カクテルパーティ効果)について調査を行い,これをモデル化することで,複数の音源の中から目的音を分離抽出する手法,これを応用して音声認識システムを構築する手法,走行雑音が存在する車室内での効率的な報知音の呈示方法,また,これを逆手にとって会話におけるプライバシー保護を目的として音声了解度の低下を促進させる手法について研究を行っている.この研究の一環として,(株)グローリーと共同して会話プライバシー保護装置の試作品製作を行っている.成果として,国内特許1件が公開,国際特許申請(米,独,仏,中国,韓国)1件となっている.今後は,複数の音源の中から目的音を知覚するメカニズムについて,心理物理学的手法を適用して,さらに深く基礎的検討を行い,応用システムの性能向上を目指す.
ヒトの聴覚特性のモデル化
ヒトの聴覚特性を調べ,これをモデル化するために,主に聴覚心理の立場から,モデル化の基礎となる様々な心理物理測定を行っている.研究内容は,位相知覚,音声知覚(母音知覚,文脈効果)等,多岐に渡る.そして,これらをもとに,聴覚マスキング特性のモデル化,文脈効果のモデル化と音声認識への応用,聴覚末梢系モデルの騒音評価への応用を行ってきた.成果として,国内特許が1件公開となっている.今後は,「非言語情報の生成と知覚」とからめた知覚モデルの構築を推進していく予定である.
生理学的聴覚モデル
ヒトの聴覚特性を調べ,これをモデル化するために,主に聴覚生理の立場からモデル化を行っている.モデルを構築する場合,次の二種類のモデル化が考えられる. (1.実態モデル)モデルによる真理追求のアプローチ:生理学,心理学において実体を用いて実験できない場合,精巧なモデルを用いて計算機上でシミュレーションを行い,様々な知見を得るためにモデル化. (2.機能モデル)工学応用:人間は鳥を見て空に憧れ飛行機を作った.飛行機は鳥と同じように空を飛んでいるわけではないが揚力という物理学の基本原理は同じである.このように,基本原理を見つけだして工学的に応用することを試みるためのモデル化. 本研究室では,実態モデルとして,音源方向定位をつかさどる蝸牛神経核および上オリーブ核のモデル化,機能モデルとして,聴覚有毛細胞→聴神経→蝸牛神経核→下丘にいたる初期聴覚系のモデル化を行っている.成果として,日本音響学会佐藤論文賞を受賞した.しかし,綿密なモデル化を行うためには,綿密な生理実験が欠かせない.
異常構音
口腔疾患,運動機能障害等のために構音が正常にできず,発話した音声にひずみを生じることがある.このひずみがどのような形態の構音から発せられるのか,また,ひずみと知覚される主原因は何か,を明確にすることは,発話訓練補助のみならず,人の音声生成・知覚機構を解明する上で有益である.本研究では,MRIによって取得した声道形状から伝達特性をシミュレートすることで異常構音の生成機構の解明を試み,また,聴取実験により異常構音と知覚されるための音響物理関連量を明らかにする.現在までに,昭和大学歯学部,東京以下歯科大学と共同して,側音化構音音声,癌による舌除去後の音声,口蓋裂音声等の分析を行い,その特徴分析を行ってきた.これらの研究成果は医学雑誌に掲載済みである.
生成と知覚の相互作用
音声知覚・生成は,音声によるマン-マンコミュニケーションの根幹を成すものである.また,マン-マシンコミュニケーションにおいても,ヒトの音声生成・知覚機構を基礎として,これを工学的に実現した音声合成・認識が重要な役割を果たそうとしている.本来,音声知覚・生成は,音声コミュニケーションにおいて表裏一体を成すものであり,コミュニケーションを円滑に保つためには双方が一体となって働く必要がある.本研究では,音声生成と音声知覚の密接な関係を示す一例として「聴覚フィードバック」を取り上げ,知覚・生成の相互作用の解明を図ることを目的として,様々な生理指標の測定を試みている.現在までに,1.被験者のフィードバック音の変形への反応は,変形の方向と反対方向であり,発話において変形に対する補正がリアルタイムで行われていることが確認できた.2.ホルマント周波数分析から,第1,第2ホルマントにおいて明確な補償動作が観測された.これは,スペクトルに関する聴覚フィードバックにおいて短時間での補正反応を捕らえた初めての結果である.3.筋電(EMG)および舌運動(EMA)の分析結果から,摂動に対してこれを補償するような筋肉および舌の動きが観測された.4.補償動作は,変形開始から約150 msで始まり,290 msで最大値に到達した.ことが明らかとなっている.今後,fMRIおよびMEG等を用いて,脳活動の測定を行い,より詳細な結果を得る予定である.

■研究業績

◆発表論文
Unsupervised Singing Voice Separation Based on Robust Principal Component Analysis Exploiting Rank-1 Constraint
Feng Li and Masato Akagi
Proc. EUSIPCO2018, Rome, Italy, 1934-1938-, 2018/09/06
A Three-Layer Emotion Perception Model for Valence and Arousal-Based Detection from Multilingual Speech
Xingfeng, Li and Masato Akagi
Proc. InterSpeech2018, Hyderabad, India, 3643-3647-, 2018/09/06
Voice conversion for emotional speech: Rule-based synthesis with degree of emotion controllable in dimensional space
Yawen Xue, Yasuhiro Hamada, and Masato Akagi
Speech Communication, 102, 54-67-, 2018/09/01
Contributions of the glottal source and vocal tract cues to emotional vowel perception in the valence-arousal space
Yongwei Li, Junfeng Li, and Masato Akagi
J. Acoust. Soc. Am., 144, 2, 908-916-, 2018/08/01
Non-parallel Dictionary-based Voice Conversion using Variational Autoencoder with Modulation Spectrum-constrained Training
Ho-Tuan Vu and Akagi Masato
Journal of Signal Processing, 22, 4, 189-192-, 2018/08/01
◆書籍
Effects of spatial cues on detectability of alarm signals in noisy environments, In Principles and applications of spatial hearing (Eds. Suzuki, Y., Brungart, D., Iwaya, Y., Iida, K., Cabrera, D., and Kato, H.)
Kuroda, N., Li, J., Iwaya, Y., Unoki, M., and Akagi, M., World Scientific, 2011
音響学入門,第2章「音を聞く仕組み」
鈴木陽一,赤木正人,伊藤彰則,佐藤洋,苣木禎史,中村健太郎, コロナ社, 2011
Noise Reduction Based on Microphone Array and Post-Filtering
Junfeng Li, Masato Akagi, VDM Publishing House Ltd. , 2009
脳科学大事典
甘利、外山編, 共著, 朝倉書店, 2000
音のなんでも小辞典
日本音響学会編, 共著, 講談社ブルーバックス, 1996
◆講演・口頭発表
Toward Affective Speech-to-Speech Translation
Akagi, M.
International Conference on Advances in Information and Communication Technology 2016, DOI 10.1007/978-3-319-49073-1 3, Thai Nguyen, Vietnam, 2016/12/13
表現豊かな音声の認識・合成とAffective Speech-to-Speech Translationへの応用
赤木正人
2015音学シンポジウム,情報処理学会研究報告,2015-MUS-107, 6, 電気通信大学, 2015/05/23
カクテルパーティ効果とスピーチプライバシー保護
赤木,入江
日本音響学会平成24年春季研究発表会,2-2-3, 神奈川大学, 2012/03/14
音情景理解を応用した音声プライバシー保護
赤木,入江
電子情報通信学会技術報告,EMM2011-59, 機械振興会館(東京), 2011/12/09
聴覚と音研究
赤木正人
音響学会聴覚研究会資料,41, 7, H-2011-104, 2011/10/02

■担当講義

データ分析のための情報統計学, 音声情報処理特論

■学外活動

◆所属学会
日本音響学会, 電子情報通信学会, 信号処理学会

■賞等

・ 日本音響学会佐藤論文賞 , 日本音響学会 , 2011/03/10
・ インタラクション2009,インタラクティブ発表賞 , 情報処理学会 , 2009/03/06
・ 信号処理学会 Best Paper Award , 信号処理学会 , 2009/03/02