森山和道の「ヒトと機械の境界面」

コピー不可能な体験を価値の中核に

~音楽情報処理の「OngaCRESTシンポジウム」レポート

今回初公開された「Songrium 3D」。原曲と派生曲の関係をビジュアル化した視聴支援サービス

 8月23日、明治大学中野キャンパスで「OngaCRESTシンポジウム2014 音楽情報処理研究が切り拓く未来を探る」が行なわれ、音楽、PVやダンスなどを含む音楽動画の情報処理に関する研究成果が、デモンストレーションを交えて発表された。また特別講演として「初音ミク」で知られるクリプトン・フューチャー・メディア株式会社代表取締役の伊藤博之氏による講演も行なわれた。合わせてレポートする。

 「OngaCREST(音画CREST/おんがくれすと)」プロジェクトとは、科学技術振興機構(JST)の戦略的創造研究推進事業(CREST)の1つで、正式プロジェクト名は研究領域「共生社会に向けた人間調和型情報技術の構築」平成23年度採択研究課題「コンテンツ共生社会のための類似度を可知化する情報環境の実現」。

 プロジェクトの目標は「音楽の聴き方・創り方の未来を切り拓く技術開発により、音楽の楽しみ方がより能動的で豊かになり、人類と音楽との関係がより良い形で発展していけるようになる情報環境の構築を目指す」というもの。コンテンツ間の類似度を示し、音楽の楽しみ方をより能動的にするのが目標だという。研究代表者は、独立行政法人 産業技術総合研究所(産総研)情報技術研究部門 首席研究員の後藤真孝氏。実施期間は2011年10月~2017年3月。5カ年のプロジェクトで、現在は3年目。今回は中間発表となる。

 「能動的な音楽鑑賞」とは何か。まず最初に、今回のシンポジウムを聞いて筆者が感じたことをまとめておく。能動的と聞くと「創作」と考える人が多いと思うが、創作だけが能動的な音楽の楽しみ方ではない。例えば、似た楽曲を探索することも、能動的な楽しみ方だと言える。イコライザで少し音をいじるのも能動的音楽鑑賞だし、もちろん、歌ってみたり、それを動画で共有したりすることも能動的な楽しみ方だ。重要なことは自分自身が何かを決めて選択し実行する、そして何かしらの主観的な感覚、体験を得ることだ。例えどんなに些細なものであっても、主観的な経験はコピー不可能な、自分だけのものである。

 後藤氏らはこれまでにも、さまざまな音楽情報処理に関する研究成果を発表してきた。音楽情報処理技術の本質は何かと考えると、これまでは「音楽」を理解し生成できるのは人間だけだと考えられてきた。だが情報処理技術によって、計算機が音楽の構造や構成、盛り上げ方などを理解することができるようになりつつある。「理解」というのは言い過ぎかもしれない。だが少なくとも、ある程度ならば人間の感動に貢献できる形で処理結果を返すことができるようになりつつある。ではその技術を使って何ができるのか。それが核心だ。

 後藤氏は始めに“新ネタ”を紹介した。音楽鑑賞サービスSongleとロボット制御ソフトウェア「V-Sido」の連携によるロボットダンス、音楽視聴支援サービスSongriumの3D化「Songrium3D」、音楽に連動したCGキャラクターのダンスの自動生成「MachineDancing」、音楽に同期した歌詞テロップの編集環境「TextAlive」だ。

Songle+V-Sidoによるロボットダンス
音楽に連動したダンスの自動生成MachineDancing
音楽に同期した歌詞テロップの編集環境「TextAlive」

「可知化」によって感動体験重視型のコンテンツ文化を

産業技術総合研究所(産総研)情報技術研究部門 首席研究員 後藤真孝氏

 まず研究代表者の産総研・後藤真孝氏からプロジェクトの狙いと概略紹介が行なわれた。音楽情報処理とは、楽曲の中身やシーンを検出、解析し、機械学習などの方法を用いて、コンテンツの類似度や構造を明らかにして、視聴者に提示し、それを再活用しやすくする技術だ。例えば、膨大なコンテンツ間の類似度を知ることができるようにすることで、音楽の創作・鑑賞をスポーツや料理のように誰もが楽しめるようにすることが目的の1つである。

 コンテンツが増えるのはすばらしいが、過去のコンテンツが増え続けることで、1つ1つは埋没しやすくなる。また、盗作ではないにも関わらず、部分的に類似してしまう楽曲も増えてくる。それは人間の類似度認識能力に限界があるからだ。また人間はある事象の発生確率を正確に見極めることは苦手だ。これらは一億総クリエータ時代にとっては危惧される点だと後藤氏は述べた。そのために類似度を「可知化」する技術が必要なのだという。

 後藤氏は「コンテンツを安心して制作発表できるようにしたい」と語り、「ありがち度」が高い事象(コンテンツ)は人類共有の知でもあり、それをベースにした創作支援技術にも繋がるし、コンテンツとの出会いや鑑賞をより豊かにしたいという。またコンテンツをリファー(参照)、再利用されやすいようにすることで、過去のコンテンツに敬意を払いつつ、「感動体験重視型のコンテンツ文化を生み出したい」と述べた。「似ているか、似てないか」に価値があるわけではないというわけだ。このような考え方に基づいて、鑑賞支援、創作支援、類似度・ありがち度の推定と音楽理解技術などの研究開発を進めているという。

類似度の「可知化」
ありがちかどうかの判断は人間には難しい
類似度を誰もが知ることができる技術の普及で体験重視型の文化に

楽曲を自動解析、音楽鑑賞を支援する「Songle」

 続けて後藤氏は各研究成果を抜粋して紹介した。まず「Songle」は、Web上の楽曲を自動解析して能動的音楽鑑賞を支援するサービスで、2012年にリリースされた。楽曲構造(サビ区間と繰り返し区間)、ビート構造(拍と小節の先頭)、メロディー(歌声の音高)、コード(根音とコードタイプ)を自動解析し、タブをクリックするだけで各要素の自動解析結果を聞くことができる。音楽的能力がない人でも気軽に、より深く音楽を理解することができる。

 音楽構造を自動解析すると、具体的にはどんな良いことがあるのか。例えば、取りあえずサビだけ聞いてみるといったことができるのが1つ。解析結果をもとにビジュアライズすることもできる。コード進行検索もできる。自動解析は正確ではないが、間違いを人が修正することもできる。自動解析結果の誤りを人間がブラウザ上で修正・共有した結果は機械学習する。「ユーザーとシステムがそれぞれ力を合わせる仕組みはこれからの情報システムには必須だ」と後藤氏は述べた。

 また外部サービスとも連携できる。Songleはコンテンツ投稿サイト「ピアプロ」と連携しており、登録されている8万曲以上の全ての楽曲からSongleへリンクがあり、自動解析されている。外部埋め込みプレーヤーも提供されている。

 また実世界のデバイス制御も可能で、例えば音楽と連動して照明器具の操作ができたり、「MikuMikuDance」のモデルデータであるMMDモデルを同期させて踊らせることもできる。また、「Melvie」というソーシャルVJサービスでは、楽曲の構造に応じて動画素材にエフェクトをかけて表示するということも実現できている。

音楽を解析して音楽地図を生成する
タブをクリックするだけで結果を閲覧、再生可能
サビ出し機能
コード進行検索
誤りの手動訂正結果は共有・学習される
外部埋め込みプレーヤーも提供
外部機器の制御も可能
音楽連動アニメーション
ソーシャルVJサービスMelvieとの連携

「Songle+V-Sido」、「Songle Widget」

「V-Sido」を開発した吉崎航氏

 今回、Songle外部埋め込みプレーヤーの利用例として初公開となったのは、現在はアスラテック株式会社チーフロボットクリエイターを務める吉崎航氏が開発した「V-Sido」というヒト型ロボット制御ソフトウェアへの対応。開発者の吉崎氏による実装で、Songleの解析結果を使ってV-Sido搭載のロボットが踊れるようになった。

 V-SidoのHTTPサーバー機能を用いてSongleの外部埋め込みコードを追加したもので、事前の踊りテンプレート(今回は8種類)を組み合わせたダンスだが、「V-Sido」で機体を制御しているので、リアルタイムにジョイスティクそのほかで割り込みができる。例えば、踊りを踊っているところに歩かせることで、歩きながら踊らせることができるし、ロボットが踊っている途中で向きが変わってしまっても、人による操作で介入してまた正面を向かせることもできる。

 今回のデモでは、PC上でV-Sidoを実行してBluetooth経由でロボットを制御している。直接人前で行なうデモということで、ロボットのサーボモーターの動作音が音楽と重ならないようやや遅らせている。一方、ビデオ作品などで見せる場合は、ロボットの動作音を消せるので、その場合は曲のリズムに合わせて動かした方が良く見えるようだという。特に今回は腰の動きに気を遣ったとのことだ。

 同じ仕組みを用いている「Songle Widget」も同日公開された。JavaScriptを扱える人であれば、誰でも音楽連携したサービスで、例えば音楽に合わせてアニメーションを表示するといったものを開発できる。狙いは、音楽理解技術を持っていない人であっても、音楽に連動した世界を実現可能にすることだという。特にサビジャンプ機能は非常に便利だと後藤氏は述べた。

音楽自動解析サービス「Songle」とロボット制御ソフト「V-Sido」の連携

楽曲間の関係をビジュアライズ「Songrium 3D」

 単一の楽曲とほかの楽曲とを繋げる技術が「Songrium」だ。「ニコニコ動画」などのソーシャル投稿サイトではオリジナルの派生作品が多数生み出される。オリジナルの楽曲と派生作品の関係を明示するのが「Songrium」で、2013年8月にリリースされた

 音楽コンテンツ間の繋がりを意識した鑑賞を目指す「Songrium」では、オリジナル作品の周りを派生作品が衛星のように回っており、あるコンテンツがどんな派生作品を生み出し得るのかが明示される。つまり「コンテンツ生成力」が分かる。後藤氏は、これはこれまでの再生回数などとは違う指標になりえるものであり、派生からオリジナルへとリンクするリファーする文化がもっと普及すれば、より豊かな世界が実現できるのではないかと述べた。

 また、音楽コンテンツには多種多様な関係があり、全て自動で見出すことは現時点では難しい。そのため、ユーザーが矢印などを付けることでコンテンツとの関係情報を付加できる機能もある。なお「Songrium」は「ニコニコ動画」だけではなく、Youtubeにも対応しているという。ただ、Youtube上の楽曲動画はニコニコ動画ほど構造化されておらず雑多なため、現時点ではニコニコ動画の方が解析には向いているようだ。

Songrium
多くの派生作品が生まれるのがニコニコ動画の特徴
楽曲間の関係を自動抽出して提示
楽曲の「コンテンツ生成力」が分かる
音楽コンテンツにはさまざまな関係性がある
ユーザーが手動で関係性を紐付けることもできる

 これまでは2次元表現だったが、音楽間の繋がりを3次元表現にしたのが「Songrium 3D」で、これも同日公開された。3次元になることで、ますます星のように表現されており、1つ1つの星が楽曲で、1つの楽曲の再生が終わると次の星へと移動していく。多くの衛星や、まるで輪のように無数の星を持っているように見える楽曲は、それだけ多くの派生作品を持つ楽曲であることを示している。

Songriumの技術を使って別の応用も
対象の動画。ニコニコ動画とYoutubeに対応
Songrium 3D

伴奏譜生成、楽曲リミックス、ダンスモーション作成も自動で

 このほか、歌声解析を使った「歌声トピックに基づく類似歌声検索とトピック可視化」、ギター伴奏のためのタブ譜を異なるアーティストスタイル別に自動生成する手法「AutoRhythmGuitar」、類似度検索を使って似た楽曲の断片を組み合わせて創作する自動マッシュアップ「AutoMashUpper(Songmash)」、機械学習と「ダンス語彙」概念を用いた自動ダンスモーション生成「MachineDancing」、歌詞テロップのアニメーション作成技術「TextAlive」、確率的生成モデルを用いた類似度とありがち度の推定、歌声音声の統計的知覚年齢制御などの成果がざっと紹介された。

歌声トピックに基づく類似歌声検索とトピック可視化
色んなアーティスト風のギターコードを生成「AutoRhythmGuitar」
楽曲を自動切り貼りする「AutoMashUpper(Songmash)」
音楽と連動したダンスを自動生成「MachineDancing」
単なるダンス動作の切り貼りではなく関節の動きを1つ1つ生成する
テロップのアニメーション作成「TextAlive」
確率的生成モデルを用いた類似度・ありがち度推定
歌声音声の統計的知覚年齢制御
MachineDancing: 機械学習に基づく音楽に連動したダンス自動生成
TextAlive: 音楽に同期した歌詞アニメーションのKinetic Typography制作環境

コピー不可能な体験の創出が本質

 後藤氏は「コピー不可能な体験を創出することが本質だ」と述べた。一方、コンテンツ産業は体験をコピー可能にすることで発展してきた。だがデジタル化による流通技術の発展によって、コピー可能な受動的な体験の産業上の価値は、なくなる可能性もある。しかしながら、簡単なカスタマイズであっても、あるいは「ニコニコ動画」でコメントするようなものであっても、それはその人だけの体験であって、コピー不可能なものとなり、それには価値があるのではないかと後藤氏は語った。鑑賞支援技術、能動的音楽鑑賞に注力しているのはそのためだという。音楽情報の可視化や加工に参加するによりコンテンツへの理解はより深まる。それは自分だけのものだ。

 後藤氏は最後に、デジタル化の本質はコピー不可能な体験を情報技術の力で実現する質的な変化であり、未来のクリエイティブ産業の牽引には、コピー不可能な体験を価値の中核に置くことが重要だと語った。

コピー不可能な体験を価値の中核に
「OngaCREST」研究推進体制

意味を理解した歌詞の検出

早稲田大学 理工学術院 教授 森島繁生氏

 続けて各チームからの研究紹介が行なわれた。早稲田大学 理工学術院 教授の森島繁生氏は「音楽動画の創作・鑑賞支援に関する研究成果の紹介」と題して講演した。森島氏はコンピュータビジョンの研究者で、2005年の「愛・地球博(愛知万博)」での三井・東芝パビリオンで用いられた視聴者自身の顔取り込みなど、3次元顔形状推定技術で知られている。アニメ「のだめカンタービレ」で千秋の指揮棒動作を取り込むのにも森島氏らの技術が用いられている。森島氏は、現在では顔の高速モデリングが可能で、愛知万博のときは3分かかっていたものが今はわずか2秒程度でできるようになっていることを、実際にデモで示した。

 森島氏は音楽鑑賞インターフェイスとして、単純な全文検索ではなく歌詞が持つ意味を定量的に分析した上で歌詞検索ができる「Lyrics Radar」、動画コンテンツ創作支援技術として動画に現実を融合させることで例えば画像のなかに自分が入り込むことを可能にする「VR Mixer」、キーシェイプと呼ばれる表情モデルが少なくても別の豊かな表情を作成できるアニメーション生成技術「Character Transfer」、経年変化顔画像の合成、類似コンテンツ検索技術として半教師あり非負値行列因子分解を利用して混合音からフレーズ検出する技術「Query byPhrase」、歌声区間検出技術などを紹介した。

わずか2秒程度で顔の取り込みとメッシュモデル生成が可能
歌詞の意味を理解して検索する「Lyrics Radar」
「Character Transfer」

動画の世界に入り込むことを実現する「VR Mixer」

明治大学 総合数理学部先端メディアサイエンス学科 准教授 中村聡史氏

 明治大学 総合数理学部先端メディアサイエンス学科 准教授の中村聡史氏は「音楽動画とインタラクションに関する研究成果の紹介」と題して講演した。中村氏は、サーチ・インタラクションや、ソーシャル・アノテーション分析、ネタバレ防止のような情報提示技術、平均文字など「人にまつわる人を中心とした研究」を行なっている。

 動画共有サイトにアップロードされている動画は膨大な量になっている。好みの動画を探し出すのは難しく、また創作のハードルは依然として高い。中村氏らは、視聴者コメントに基づいて音楽動画を印象から検索できるようにすることや、データセットの構築、動画内容をコンパクトにまとめたサムネイル動画の自動生成、動画の装飾と共有や、動画と現実の融合「VR Mixer」、複数演奏データからの合奏生成など、創作と鑑賞の間に関わる技術などの研究を行なっている。

音楽動画の印象推定
動画サムネイルの自動生成
複数録音データからの合奏曲生成
動画の世界に入り込むことを実現する「VR Mixer」
Kinectを使って実環境情報を取り込む
京都大学大学院 情報学研究科 知能情報学専攻 音声メディア部門講師 吉井和佳氏

 京都大学大学院 情報学研究科 知能情報学専攻 音声メディア部門講師の吉井和佳氏は、「統計的音楽音響信号処理に関する研究成果の紹介」と題して研究紹介した。音楽をより深く計算機に理解させて、新しい音楽検索と音楽鑑賞スタイルを生み出し、かつ、音楽の内容を自分の好みに合わせて操作できる技術を目指しているという。

 吉井氏らのグループでは統計的機械学習を用いている。特に「教師なし学習」でデータ内の構造や規則を発見させ、音源分離や自動採譜を可能にすることを目指している。音楽音響信号を解析することで、イコライザのように単純に周波数帯域だけではなく、混合音から楽器パートごとに音を抽出、さらに操作したり再構成したりできるようになる。いわば各部品から成立している音楽をもう一度ばらばらの部品へと戻して好みに応じて組み直すことができるのだ。

 そのために無限個のソース・フィルタで構成される非負値行列因子分解「無限複合自己回帰モデル」や、位相情報を取り扱える「無限半正定値テンソル分解」という手法を提案し、混合音からのブラインド音源分離を実現している。最終目標は楽譜のような事前情報なしで音楽音響信号をMIDIのように取り扱えるようにすることだという。

 アプリケーションとしては、例えばドラムの音色だけを自分好みのものに置き換えられる「楽器音イコライザ」、既存の歌声に好きな歌手の歌い方を転写する「歌声イコライザ」、音楽と言語の共通性に着目し、ノンパラメトリックベイズモデルを用いた統計的音楽生成の可能性などを示した。モデルを学習できるようになれば、創作も可能になる、ということだ。

音楽を深く理解できる計算機の実現が目標
統計的機械学習を用いた音楽解析
教師なし学習による音源分離/自動採譜
無限半正定値テンソル分解を用いた音源分離
混合音中の楽器パートごとの編集システムが目標
楽器音イコライザ
歌声イコライザ
統計的音楽生成の可能性
歌声に対する歌唱表現の転写システム

「のどを超える歌声」を目指して

クリプトン・フューチャー・メディア株式会社 代表取締役 伊藤博之氏

 最後に招待講演として、クリプトン・フューチャー・メディア株式会社 代表取締役の伊藤博之氏が講演した。演題は「初音ミクが切り拓いてきた世界、切り拓く未来」。改めて紹介すると、クリプトン・フューチャー・メディア株式会社は、2007年にヤマハ株式会社のVOCALOID技術を使って歌声合成ソフトウェア「初音ミク」を発売した会社である。合成音声にキャラクター性をもたせ、「ニコニコ動画」を中心とした動画共有サイトで創作がさらに創作を呼び大ヒット。「初音ミク」はCGM(消費者生成メディア)の代表となった。

 伊藤氏は「初音ミク」以前の革新的な技術として、蓄音機(1877年)、トランジスタラジオ(1955年ごろ)、Minimoog(1970年)を挙げた。蓄音機以前は、紙には書き切れないニュアンスやエモーショナルな部分は記録ができなかった。蓄音機以前は音楽は民俗的なもので、歌手は語り部であり、音楽は物語性が強いものだった。だが蓄音機の登場によって歌手は「アーティスト」とみなされるようになり、音楽は「プロダクト」になった。

 そして小さくて安価なトランジスタラジオによって音楽は大衆化、個人化した。特に若者たちが音楽に親しむ機会が増えて、ロックンロールなどが生まれ、音楽の中で描かれる物語も多様化した。Minimoogはそれまで扱いが難しかったシンセサイザーを劇的に使いやすくした。特にレゾナンスとカットオフ周波数の考え方は画期的で、情感豊かな音色を人工的に作れることを示した。ディスコなどダンスミュージックのブームにのって、音楽のトレンドは物語からビートへとシフトした、と伊藤氏は述べた。またここから歌声の素材化が始まったという。

蓄音機によって音楽はプロダクトに
トランジスターラジオは多くの若者たちに音楽を身近なものにした
Minimoogは情感を人工的に作り出せることを示した

 「初音ミク」は最初のボーカロイドではない。なぜ初音ミクがもっとも多くの支持を受けたのか。伊藤氏は、最大の理由はアマチュアリズムの存在に尽きると述べた。アマチュアリズムに火をつけた原因はキャラクターにある。最初期はミク自身のことを歌わせるものが多かったが、だんだん共通テーマが形成されはじめ、さらにそれに引き寄せられるかたちで音楽リスナーや創作者たちが集まり、架空のキャラクターが形成されていった。

 「初音ミク」だけでなく音声合成ソフトウェア全般に言えることだが、滑舌はあまりよくない。そのため動画に歌詞テロップを多くの人が入れるようになった。ほどなく字幕の入れ方さえも個性や表現になり、先鋭化していった。滑舌が悪いという不利な点が逆に利用されて表現になっていったのだ。その結果、作品の物語性は高まっていった。楽曲だけではなく、そこから派生小説なども生まれていくようになった。2010年前後からクリエイターが牽引していくケースが増えていった、という。

初音ミク楽曲の変遷
楽曲からライトノベルへの派生
歌詞字幕を表現にしている例として伊藤氏が示した動画
ニコニコ動画における50万再生数を超えるボーカロイド動画数の変化

 ではこれからどうなるのか。ニコニコ動画で50万再生を超えた楽曲は2011年は68曲、2012年は77曲。だが2013年になると半減。39曲になった。今年投稿された曲で50万再生を超えた数は8月時点で7曲になっている。何が起こっているのか。伊藤氏は過去の人気動画などに再生数が分散しているのではないかと述べ、今後は、こういう状況から、クリエイターが牽引するだけではなくアクティブリスナーやキュレーターが重要な役割を果たすようになるのではないかと語った。

 そしてかつて音楽が物語からビートへとシフトしたが、再び物語を紡ぐものへとシフトしている気がすると述べ、歌声合成ソフトウェアによって再び蓄音機以前のような「物語」が重視される状況になりつつあるという見方を示した。

 またスパイク・ジョーンズ監督脚本の「her/世界でひとつの彼女」という近未来を舞台にした映画を紹介。サマンサという人工知能の女声に恋をしてしまう男の物語だ。この映画では「サマンサ」は映像としては姿をまったく見せず、アバターのようなものすら出てこない。声だけだ。伊藤氏は、そこに日本人からすると違和感を感じたという。一方、逆の違和感を欧米では感じることがあるという。つまり3DのCGアバターに嫌悪感を感じる人が少なくないという。そういう背景もあり、「初音ミクが成功したのは日本だからだよ」と言われることもあると述べた。

レディガガのオープニングアクトとして初音ミクのアバターが出てきたときの様子

 伊藤氏はレディガガのオープニングアクトとして初音ミクのアバターが出てきたときの映像を示し、アトランタやワシントンDCは案外声援が大きかったと述べた。これまでの海外でのイベントを通じて「ミクを知らない人の方が圧倒的に多いことは確か。だけどマイノリティが多い人の地域の方が声援は大きい」と感じているという。だが「シラケて見ている人たちが多い地域もある」そうで、「欧米ではアバターを使うと、むしろ『見た目』で脚をひっぱられることもある」と指摘した。

 伊藤氏は「そもそも人間の歌手でさえ『アーティスト』として見られるようになって日が浅い、バーチャルシンガーがアーティストとして見られるにはまだイノベーションが必要だ」と続けた。特に情感の再生や発声のバリエーションが必要だと感じているという。かつてアコースティック楽器においては楽器をまるごとサンプリングする試みがあったが、人間の声はバリエーションが多過ぎるし、再現性も難しく、同じことを行なうのは難しい。

 むしろ、人間の声にこだわる必要はなく、かつてシンセサイザーがアコースティックの再現とは別のところからブレイクスルーを果たしたように、エモーショナルに関する新たなパラメータを発見してモデルに組み込むことが人間を超えるということでは大事なのではないかと語った。「のどを超える歌声」をどう作るかが勝負だ。

 最後に今日の「アコースティックなデジタル楽器」として「Continuum Fingerboard」や、イギリスの文人ウォルター・ペイター(Walter Pater)による「すべての芸術は絶えず音楽の状態に憧れる」という言葉を紹介した。音楽はどんな人種の誰が聞いても楽しいとか悲しいとか感じることができるという意味だ。伊藤氏は同じ文脈で、音楽情報処理は芸術の情報処理の中でも核心をついた分野だと述べて講演を締めくくった。

Continuum Fingerboard

(森山 和道)