あたかもその場所にいるかのような没入感のある
コミュニケーション体験を実現する「音」の技術
KDDI総合研究所の「モバイル向け360度動画再生アプリ」
2025年6月24日

B Labが主催する「みんなの脳世界2024~超多様~」では、ニューロダイバーシティ社会の実現に取り組むさまざまな企業・大学・研究機関のユニークな研究成果を紹介しています。KDDI総合研究所では、「音」をテーマに、360度動画と合わせて、自分の身の回りの特定の範囲の音を立体的に聴くことができるアプリを展示しました。
KDDI総合研究所の堀内 俊治 氏(▲写真1▲)と谷地 卓 氏(▲写真2▲)に、研究開発に取り組んだ背景、モバイル向け360度動画再生アプリの詳細、そして最新の研究成果などについて「みんなの脳世界」展を推進するB Lab所長の石戸 奈々子(▲写真9▲)がお聞きしました。
<MEMBER>
株式会社KDDI総合研究所 先端技術研究所 XR部門(KDDI株式会社 先端技術統括本部 先端技術研究本部 兼務)堀内 俊治 氏
KDDI株式会社 先端技術統括本部 先端技術研究本部(株式会社KDDI総合研究所 先端技術研究所 XR部門 兼務)谷地 卓 氏


近づくと大きく、離れると小さく
360度動画の中で音の「移動体験」ができる
石戸:KDDI総合研究所には、2024年開催の『みんなの脳世界』展にご参加いただきました。展示テーマは『音』ですね。どのような展示内容だったのか、そして、最新の研究内容について説明していただけますか。
堀内 氏:KDDI総合研究所では、『見たい景色を音で感じてみよう』をテーマに当社が開発してきた『モバイル向け360度動画再生アプリ』を展示しました。KDDI総合研究所がなぜ、このような研究をしているのか。その理由は、例えば遠隔地にいる誰かとコミュニケーションをするときに、あたかもその場所にいるかのような感覚、没入感を持てないか、親近感を持って電話や携帯電話などで会話できないかといったことを考えたからです。没入感や親近感を感じるコミュニケーションの体験を高めていくために、見た目や音、触覚などマルチモーダルでの研究を進めています。
それでは今回、展示をした内容、技術や工夫、取り組みに至った背景を説明します。360度動画はYouTubeなどでもご覧いただける機会が増えています。360度動画とは、視聴者が実写で好きな方向を見ること、つまり移動体験ができるものです。教育や医療、エンタテインメント、遠隔コミュニケーションなど、さまざまな領域での活用が期待されています。
ただし、視覚的には移動体験ができますが、音については広がりがあるために「見た方向や範囲の音」に一致していませんでした。聴覚的には移動体験ができていなかったのです。音の効果が不十分で、視覚と聴覚の両面で没入感を高めたいというのが開発に取り組んだ背景です。今後、五感を通じたコミュニケーションがさらに進展していくことを考えると、見た方向や範囲の音が聞こえるような音響技術が没入感や臨場感、親近感のあるコミュニケーションの鍵を握ると考えました。
そこで、KDDI総合研究所では視覚的に移動体験ができると同時に、聴覚的にも音が近づいたり遠ざかったりすることを
体験できるアプリを開発して展示しました。(▲写真3▲)

具体的にどのようなアプリなのかを、東京混声合唱団と藤巻亮太さんにご協力いただいた動画を再生してご説明します。舞台中央の藤巻さんのところにカメラとマイクを配置して、周囲を360度撮影し音も収録しました。これをアプリで再生すると、例えば舞台左側の女性コーラスや右側の男性コーラスに近づいたり遠ざかったり、ズームアウトした時に、見た目だけでなく音の効果も同時に楽しむことができます。また、ある部分の音を中心に切り出したり、全体の音を体験したりすることも可能です。(▲写真4▲)

この技術では、サラウンドで音を収録しています。通常、音の効果は『音を収録した場所』のものです。そこで、前に行ったり後ろに行ったり、近づいたり遠ざかったりしたときの音に相当するような、変わった音の作り方をしています。この作り方は、『人が聞いてどのように聞こえるか』を技術に織り込んでいく、主観的な制御の方法も取り込んだ空間の再現技術です。そうした取り組みにより、視覚と聴覚の両面で移動体験ができるようにしました。(▲写真5▲)

また、コンテンツの制作と配信を簡単にできるような工夫もしています。具体的には通常のVRカメラと、上がマイクで下がカメラになっている球状マイクロホンアレイで一気に空間全体を撮影し、その素材を丸ごと配信するようにしました。ユーザーは、その素材を受信してスマートフォンで再生して、自由に操作するだけで好きなところを見ることができ、その場所での音を聞くことができる仕組みです。(▲写真6▲)

アイドルグループ、合唱団など音楽分野での実利用から
今後は教育、美術、医療などさまざまな領域へ
KDDI総合研究所では2017年10月からこの研究に着手し、映像だけでなく音でも移動体験ができる世界初の360度動画再生アプリとして、アイドルグループへの提供、東京混声合唱団にパート別練習の教材になり得るとご活用いただきました。現在では、その他のJ-POPなど、さまざまな音楽団体にも使っていただいています。(▲写真7▲)

その後、コロナ禍で音楽イベントが開催できない状態が続いたことで、実際に公演はできないが『劇場さながらの没入観』、あるいは『バーチャルならではの体験』を提供できるアプリとして、さまざまな団体に使っていただきました。合唱の練習や音楽の合奏の練習でも、VR技術を利用することで技能向上や伝承などでも一定程度、貢献できると考えています。
これまで音楽を中心に使っていただいていますが、2021年後半からは教育分野や美術作品などにも適用を進めています。(▲写真8▲)

また、例えばテレカンファレンスなどでも「この発言者の声をもっとよく聞き取りたい」といったことがあると思います。テレワークなどワークスタイルの変化に応じた新たな使い方の可能性についても検討しています。
このように、KDDI総合研究所では「五感通信」を実現していきたいと考えています。また、都市計画や防災の分野では、避難誘導の際に「どこにスピーカーを置いたら、どのように聞こえるのか」といった検証にもこの技術は使えるでしょう。その他にもバーチャル旅行やデジタルツインで作られた街を歩くときでも、実際の現地の音を取り込み再現させることができます。この技術をもとに、どなたでも適切な五感体験はできる豊かな社会の実現に向けて取り組んでいきたいと考えています。
聞こえる音を制御することで
一人ひとりにとって「心地良い空間」を作りだしたい
堀内氏からの説明に続いては、B Lab所長の石戸 奈々子がモバイル向け360度動画再生アプリの最新の研究成果やニューロダイバーシティ社会の実現に向けた取り組み、将来の展望などについてお聞きしました。
石戸:映像は、視点を変えたり、拡大したり、ユーザーが主体的、能動的に関わることができるところまで技術が進んでいますが、音でもそれができるようになるのは非常に面白いと思いました。堀内さんの説明で、ユーザーが聞きたい音を聞くことができる技術は実装されていることがわかりました。さらに進んで、ユーザーがより能動的に音をコントロールできる技術としては、例えば音量を変えるなど、どのような技術があるのでしょうか。
堀内氏:私たちが住んでいる世界は、あまりにも音が溢れています。そこで、『音のバランスを変える技術』は考えられると思います。聞きたくない音を下げて聞きたい音を大きくする、あるいは、高い周波数の音を聞き取りにくい高齢の方などが自分でコントロールする、といった技術です。
石戸:私が『みんなの脳世界』にぜひ出展してくださいとお願いをした背景には、まさにそういった技術の可能性を多くの人に伝えたいからです。例えば、パーティーなどでは多くの場合、目の前の人の声を聞き取りますが、ASDの方の中には全部の音が同じように聞こえてしまい、目の前の人の声に集中できない方もいらっしゃるといいます。そんな時に、どの音に集中して会話を聞いたら良いかを調整するものとして、こういう技術が使えるのではないかと思ったのがきっかけです。そういう可能性もあるのですよね。
堀内氏:あります。一般的な補聴器ですと目の前の人などにターゲットを絞って、その声や音を拾う仕組みで作られていると思いますが、今後は人それぞれに合わせて深いチューニングするようになると思っています。具体的には、苦手な音を聞き分けて、聞き取りやすくするといった技術が必要になると思っています。
石戸:音に関する技術と『みんなの脳世界』やニューロダイバーシティとの関係性が、どこにあるのか疑問に思っていた方もいらっしゃるかもしれません。私は個々が適切に聞き取れる音を届ける環境整備にこの技術が有用であると思います。実際に、精神科医の先生に聞いても、『すごく興味深い、面白い、ぜひ現場で試してみたい』と話をされていました。共同研究で取り組めたら良いと考えています。
実際の利用者からの反応はどうですか。例えば、先ほどのアイドルグループでは、“推し”の声だけ聞きたいというのは、わかりやすい使い方ではないかと思います。実際に使われた方々は、どういう利用の仕方に感銘を受けているのか、どういう利用の仕方をされる方が多いのか、いかがでしょうか。
堀内氏:アイドルグループでは複数人で構成されるので、ファン、つまりこのアプリのユーザーにとっての“推し”はそれぞれ違います。ファンにとっては完全パッケージ化されたコンテンツでは、自分の“推し”が中心にいないこともあるので、自分の“推し”を常に中心にして聞く楽しみ方をされている方が多く、喜んでくださいました。一方、アイドルグループ側からいただいた声としては、仮想的にでも自分がセンターになることができ、ファンの人たちにもその状態で聞いてもらえることに喜びを得ているという声がありました。
合唱団の方々にお使いいただいた時には、視聴者がコーラスに近づいたり遠ざかったりして聞くことになると、全体の音楽として聞くことが当たり前ではなくなるという声を聞きました。作曲家の方からは、「そういった聞かれ方、楽しみ方も想定して作曲しないといけなくなる」と言われたこともあります。譜面によっては、ある楽器は、ほんの少しの空間しか鳴っていない時もあるのですが、それだと視聴者が退屈してしまうほか、作曲自体も変わってくる可能性があるという話をいただいたのが印象的でした。
石戸:なるほど。パフォーマンスをする側の表現の仕方も変わってくるのですね。技術によって新しい表現が生まれたり、表現が変化してきたりするのと同じように、例えば、アイドルグループの一人が自分がセンターにいるつもりでパフォーマンスをすることを意識するようになるかもしれません。パフォーマンスする側も変わるし、作曲する側も変わるということは新しい音楽、新しいパフォーマンスを生み出すきっかけになると感じました。実際、そういう声があるということですよね。
堀内氏:はい。作曲家からもありましたし、合唱団の方々からも声をいただきました。
石戸:ぜひ期待したいと思います。今までの楽曲も個人に合わせた聴き方ができるようになり、個別に聴き方が変わることを前提とした新しい表現も生まれて来るでしょう。音楽の事例が多かったのですが、適用範囲が広がっているというお話しもありました。美術作品、浮世絵での活用もあったかと記憶しています。他の応用事例についても教えていただいてよろしいですか。
堀内氏:教育向け、美術向け以外にスポーツにも使っていただき、研究開発を進めているところです。すでに、フィギュアスケートやロードバイクなどで使っていただいています。
石戸:フィギュアスケートで導入するとどうなるのですか。
堀内氏:フィギュアスケートのほとんどの映像コンテンツは周りに観客席があり、外側からリンクを見るかたちです。VRだと360度ですので、スケートリンクの中央に視点を置けます。視聴者は間近でフィギュアスケート選手の滑走を体感できるようになります。スケートへの没入体験を提供できるのと同時に、もしかすると採点方法も変わっていくのではないかというイメージを持っています。内側から外側を見るような方法になると、フィギュアスケートの見方も変わっていくかもという思いです。
また、音声は距離によって減衰しますから、例えば氷をかく音などは観客席からだと聞き取れない程度に落ちてしまっています。それをスケートリンクの中央で収録し、お客様に提供していくことも目指しています。
石戸:そうなると、生で見るよりも映像の方がさまざまな体験ができるようになり、リアルの鑑賞を超えてくることもあり得ますね。先ほどお話しをされていたように触覚も転送されていくようになると、試合会場で遠方から双眼鏡で見ているよりも、音にせよ映像にせよ触覚にせよ、臨場感あふれる映像体験の方がよりリアリティを持って鑑賞できるようになる、そんなことも考えられると思います。
堀内氏:本当にそうなっていくと思って取り組んでいますが、一方で同時に起きることもあると思っています。コンサート会場やスポーツ観戦会場でリアルを体験するのと同時にバーチャルでも楽しむ、ミクストリアリティのようなイメージになるかもしれません。コンサート会場で双眼鏡を覗いている方もいらっしゃると思いますが、それがスマートフォンやARグラスで同時に楽しめるようになることで、より付加価値の高いコンテンツになります。それを自宅で見ていても素晴らしい体験ができるでしょうし、現地にいるのでしたら、そこにとどまっているのではなく、これまでのリアルを超える体験ができるようになると思っています。
石戸:バーチャル旅行の話も非常に面白いと思います。確かに映像でバーチャル旅行というものはありますが、それも自分が選んだ場所に近づくと、例えば、現地のお店の人の会話がより際立って聞こえてくるようなことは再現可能ということですよね。
堀内氏:街を歩いて楽しいと思う理由の一つには、いろいろなお店から聞こえてくる音や呼び込みの声などがどんどん変わっていくことがあると思います。自分が能動的に動くことで、単に映像として与えられるだけではなく、自分の動作やニーズに応じて音や映像が提供されるような方向性で技術開発を進めています。
石戸:先ほどVRカメラがあったら誰でも作ることができるという話もありましたが、このような新しい音の体験も含めて、今後は一般ユーザーが簡易に作れるようになるのですか。
堀内氏:少し時間はかかるかもしれませんが、作れるようになると思っています。VRカメラは小さなものが出ていますし、使いやすいものも出てきています。ただ、映像に関しては多くのお客様が使われていますが、音に関しては少し特殊なマイクを使わないといけません。ある程度の品質を担保しようとするとコンパクトなタイプのマイクがまだあまりないので、機材の調達などの点で、もう少し時間がかかるかと思います。ただ、機材さえ用意できるのであれば、お客様が自分で撮影しアップロードすることは近いうちにできると思っています。
石戸:一般の方に少しハードルが高い点は、機材のコスト面だけでしょうか。
堀内氏:基本的にコスト面と、機材としてのコンパクトさ、大きさだと思っています。あとは、配信プラットフォームを構築して用意すれば、できるようになると考えています。
石戸:ニューロダイバーシティの視点では、学校の授業も動画でオンデマンド配信することがありますが、その収録にこの技術を使えば、例えば先生の声だけを強調して聞くといったこともできますね。
堀内氏:VRや360度動画の技術を用いればもうできることだと思います。少し前までは機材が高価だったのですが、それもかなり安価になり、あとはソフトウェアでどこまでできるかを突き詰めていくことになると考えています。
石戸:今回の展示は、映像では自由に視点を変えられるのに対し、音はどうかという話がきっかけだったと思います。これから先、より音楽体験などを豊かにするためには、KDDI総合研究所として、こういうことにチャレンジしていきたいと思っていることがありましたら教えていただけますか。
谷地氏:映像では映像の専門家がいて取り組んでいます。堀内は音響専門で私は触覚を専門に研究しています。現段階では、それぞれが個別に研究し、並行して進んでいるイメージです。今後、それらがマルチモダリティとして同時体験できるようになったとき、相乗効果がどうでてくるのか、非常に興味があります。
石戸:統合された先にどのような体験ができるか、私もぜひとも知りたいし、体験してみたいですね。『みんなの脳世界』では、五感の感じ方が人それぞれ異なることを技術の力で体感してもらう、他人が感じている五感を体感してもらう展示コーナーがありますが、五感の中でも味覚や臭覚の研究がとても少なくて苦労しています。やはり味覚や嗅覚の伝送はまだハードルが高いのでしょうか。谷地さんがおっしゃるように『統合的によりリアリティを持って体験してもらう』には、味覚や嗅覚に関してもどう取り組むか、研究者としては興味があるのではないかと思いますが、いかがでしょうか。
堀内氏:おっしゃる通り、味覚、嗅覚にもとても興味があり、さあどうやってやろうかと考えているところです。多くの研究所が取り組み始めていて、面白い成果も出てきていると思っていますが、それを一般の利用者にどう届けるのか、そこでまだ悩んでいます。味覚の前に嗅覚ができたらという感触を持っていますので、トライしていきたいと思っています。
石戸:嗅覚については、面白い研究成果がいくつかは出てきているという感覚は私も持ってはいます。ぜひ統合した技術開発から、さらにサービスのデザインまでを見せていただけると一般の利用者は嬉しいと思います。一方、技術者としては、さらにこういう技術があったら、もっとこういう世界が実現できるのにという思いも常にあると思います。今、お二人が期待している技術の領域、こういう技術の進展が期待されるという領域があれば教えていただけますか。
堀内氏:音響の観点では、スピーカーに関する技術です。低い周波数から高い周波数までを再生するには、ある程度のサイズが必要で、特に低い周波数だと大きなサイズのスピーカーが必要でした。つまり、これまではスピーカーの大きさで再現できる周波数が限られてしまっていたのですが、小さなスピーカーでも低い周波数が出せるようになれば、再現できる周波数の幅が広がります。大きさだけでなく、これまでとは原理が異なる音の出し方や材料技術、素材技術などでブレークスルーがあると、ものすごい世界になるではないかと思っています。
石戸:私が教員をしております慶應義塾大学 大学院 メディアデザイン研究科も材料は、ひとつの大きな研究トピックでありますが、谷地さんはいかがでしょうか。
谷地氏:日常の業務では生成AI技術に取り組んでおり、知見がかなり溜まってきました。人間が意識できるデータ量を超えた膨大なデータを処理できることが非常に面白いと思っています。現状、生成AIでは、例えばテキストや音声、画像などを組み合わせて処理させる、マルチモーダルの処理が可能です。今後は、五感など他のモダリティーの情報をと生成AI技術とを組み合わせた時にどんなことが起きるのかが楽しみです。
石戸:お話しを伺って、その先にいまとは全く違うニューノーマルと呼ばれるライフスタイルが実現されるのだろうと、私もワクワクしているところです。今回はニューロダイバーシティプロジェクトでのインタビューです。360度動画再生アプリの技術が、マイノリティーとして日常生活に苦労がある方々に対しての支援になるところは多々あると思います。その視点で、ニューロダイバーシティ社会の実現に向けて取り組みたいと思われてることがありましたら、一言ずつお言葉いただいておしまいにしたいと思います。
例えば、クワイエットアワーといった物理的な空間を制御する取り組みも生まれつつありますが、デジタルの良さは個別最適化された人にとって心地良い空間を作れることです。そう考えると、今回の技術を使うことで、街を歩くときにも心地良い環境づくりができるなどと私は感じました。いかがでしょうか。
谷地氏:ノイズキャンセリングイヤホンが普及しています。これは、聞きたくない音をキャンセルしてくれるような技術です。この技術を搭載した製品を知った当時は、現在のように広く普及する世界になるとは思ってもいませんでした。今回、展示させていただいた技術も、今、取り組んでいる他の技術も同じように、多くの人に使われて、普及・浸透し、「これがあって当然」の世界観を皆さんとも共有しながら作っていけたらと思っています。
堀内氏:どこかで音が鳴っていれば、いくらでも広がってしまう世界の中で私たちは暮らしています。うるさいと思う音も心地良いと思う音も人それぞれであり、その十人十色をどうやって人それぞれに合わせていけるのかを常に思っています。音は「出す」だけではなく、それと同時に「消す」ことも大事であり、その組み合わせでより良い音の世界を作っていけたらと思っています。
石戸:個別最適化された音世界の実現にとても期待しています。今日はどうもありがとうございました。
