AIきりたんのNEUTRINOがVersion.0.200にアップデート!新しく対応した「NSF」とは何か調べてみた

当ページのリンクには広告が含まれています。
目次

対象読者

  • NEUTRINOのVer.0.2のアップデート内容が気になる
  • 最新の音声合成技術に興味がある

目次

  • NEUTRINO Version.0.200 アップデート内容おさらい
  • 新採用の「NSF」とは?
  • 違いがわかる(?)比較用動画があった
  • Ver.0.200 のポイントまとめ
  • 参考文献・参照ページ

NEUTRINO Version.0.200 アップデート内容おさらい

2020年4月20日にAIきりたんで知られる「NEUTRINO」が大きなアップデートをしてVer.0.200になりました。

↓NEUTRINO公式ページ。(別タブで開きます)

https://n3utrino.work/550/

ユーザー側(DTMerとか)からみてチェックしておくべきことをかいつまむと、

  • 歌声音声合成エンジンに従来の「WORLD」に加えて「NSF」が追加された。それにより音声品質がワンランク向上した。
  • MacユーザーはGPUとAPIの技術的問題からNSFがローカル上で使えない(オンライン版ではMacでも利用可)
  • NSF利用の場合はピッチシフト・フォルマントシフトが無効化されている(今後技術の浸透が進んだ頃実装予定)

音声品質の向上は嬉しい点ですが、NSFを使った合成ではピッチシフトとフォルマントシフトが現状使えないのはやや悲しいところですね。

新採用の「NSF」とは?

今回の記事のメインテーマである「NSF」とはなんなのか調べてみました。

ひとことでまとめると、NSFとは音声波形合成の手法のひとつです。
2018年に国立情報学研究所(NII)というところの研究チームが開発したかなり新しい技術です。
一次情報である発表された論文を読むのはしんどそうなので、同研究所のニュースリリースを参照しました。

↓国立情報学研究所のNSFに関するニュースリリース(別タブで開きます)

https://www.nii.ac.jp/news/release/2018/1225.html

ニュースリリースによると、NSFは「ニューラル ソース フィルター」の略なのだそうです。
「ソースフィルター・ボコーダ法」という従来の音声合成法に「ニューラルネットワークによる機械学習」を組み合わせ進化させた技術です。
音声合成技術は機械学習を用いたものが近年注目されていて、今回実装されたNSFだけでなく、NEUTRINO Ver.0.1系でメイン音声合成手法であったWORLDもそのひとつです。


NSFの特徴は

  • 機械学習に必要な音声データ量が少ない(1時間程度)
  • 現状音声合成で品質最高峰とされる「WaveNet法」にほぼ同等の品質が得られる。(WaveNet法は機械学習に必要な音声データ量と計算量が膨大であり、NSFはコスパが良い)

手軽なのに高品質!とだけ聞くと手放しに良さそうですが、本当にそうなのか?と疑いたくなります。
なんとニュースリリースのページに比較のための動画が上がっていました。

違いがわかる(?)比較用動画があった

国立情報学研究所のYoutubeチャンネルからの公式動画でNSF法とその他の音声合成手法を比較できるものがありました。1分ほどの短い動画ですが、比較対象にWaveNet法もあります。

私が聴いた感想

最初モニタースピーカーで聴いた時はWaveNet法とNSF法で「NSFの方がうっすらイントネーションが不自然になるな」という印象でした。
念のためモニターヘッドホン(HPH-MT8)でもっとしっかり細かく聴いてみると、WaveNet法では「道を行く」の「を」で合成音声くさいビリ付きがかなり小さかったのに対し、NSF法ではややはっきりとビリ付きが感じられました。
それでも従来のボコーダ法と比べると元の音声にかなり近く、ボコーダ法の「こもってしまう感じ」や「露骨な合成音声のビリ付き」はほぼ無くなっています。

音質に限界があるyoutubeの音声を参考資料にするというのはあまり厳密な比較ではないかもしれません。
それは逆にいうと「youtube環境下なら最高品質のパフォーマンスと遜色ない」ということでもあると思います。

Ver.0.200 のポイントまとめ

  • 従来の音声合成システムであるWORLDに加えて、NSFを使えるようになった。(NSFを使う場合でもWORLDの一部の機能は使われている)
  • NSFの合成ではピッチとフォルマントの変更(シフト)ができない。(今後実装させる見込みは濃厚)
  • MacユーザーはNSFをオフライン・ローカルで使えないので、NSFを使いたい場合はオンライン環境下でGoogle Colabを利用する

こんなところでしょうか。
3ヶ月ほど前、AIきりたんが登場した際は「こんなリアルなボーカルが誰でも作れるのか!」と驚きましたが、この短期間にも更に進化を遂げているのですね。

今後もアップデートを追いかけていこうと思います。
以上です。お読みいただきありがとうございました。

参考文献・参照ページ(全て別タブで開きます)

NEUTRINO公式 Version.0.200アップデート

https://n3utrino.work/550/

国立情報学研究所 ニュースリリース 「自然な音声を高速に合成可能な新手法を開発 ~古典的手法にニューラルネットワークを導入したニューラル・ソースフィルター・モデル~」

https://www.nii.ac.jp/news/release/2018/1225.html

コメント

コメントする

目次