Audio source separation for various video contents

Audio source separation for various video contents

[Abstract]

音の入力信号から背景音情報をリアルタイムに学習することで，人の声と背景音の音源信号を推定する遅延なし音源分離の手法を提案する．本手法をデジタル映像機器に適用することで，映像コンテンツを視聴している際に，人の声を聴き取りやすくする，背景音を静かにする，スポーツの臨場感を感じやすくする，歌の練習に用いるといった新しい機能をユーザに提供することを狙う．実際に，遅延なし動作で端末を選ばないため，処理が軽く，効果をその場で体感しながら視聴できる効果を確認した．また，声と背景音を個別に学習するため，多様なコンテンツで声と背景音を精度よく推定できる効果を確認した．

[Publications (Japanese) ]

広畑誠, 小野利幸, 西山正志,
多様な映像コンテンツに対応した遅延なし音源分離技術,
日本音響学会春季研究発表会, pp. 1-4, March, 2013.

西山正志, 広畑誠, 小野利幸,
声と背景音のボリュームバランス調整に向けた音源分離,
情処研報 CVIM187-46, pp. 1-5, May, 2013.