当社は、「エーアイは音声技術で社会に新しい価値をつくり続けます」を企業理念に掲げ、事業活動を行っています。
「音声技術」には、主に音声をテキスト情報に変換する技術(音声認識)、テキスト情報を音声に変換する技術(音声合成)、音声の声色を別の声色に変える技術(声質変換)、音声から話者を特定する技術(話者照合・話者同定)などがあります。これらの「音声技術」のうち、当社は設立以来、「音声合成」に特化して事業展開を続けています。当社では、日本語音声合成エンジンに関する研究開発から製品開発、販売、サポートを全て社内で行っており、「法人向け製品」「法人向けサービス」「コンシューマー向け製品」の提供を行っています。(詳細は、後述「(4)ビジネスモデル」をご参照ください。)
「音声合成」の研究開発の歴史は古く、18世紀末頃まで遡ります。以前から音声合成を知っている方にとっては、機械音、いわゆる「ロボットボイス」の印象を強く持っている方が多いかと思います。当社が提供している音声合成エンジンは、機械音ではなく、人の声で合成する「波形接続型(コーパスベース)音声合成方式」をベースに、独自に研究開発を行った音声合成エンジン「AITalk®」となります。また、2020年5月より提供を開始しました「AITalk®5」では、従来の「波形接続型音声合成方式」に加えて、現在の人工知能研究の中核をなす「深層学習」をベースにした「DNN * パラメトリック音声合成方式」の音声合成エンジンの提供を開始しました。( * DNN:Deep Neural Networkの略。人の神経回路網を数理モデル化したもの(ニューラルネットワーク)を多層化し、多様で複雑な辞書を表現することができる。近年の計算機資源の向上やビッグデータの登場により、その性能は飛躍的に向上した。)
このような音声合成技術の向上に伴い、この十数年で音声合成エンジンの利用が拡がってきており、当社の音声合成エンジンを利用する顧客企業は、通信、防災、金融、鉄道・交通、車載、ゲーム、観光、自治体、図書館、放送局等、多岐に渡っております。(詳細は、後述「(3)主な活用シーン」をご参照ください。)近年では、IoT、ロボットの普及、また訪日外国人観光客の増加に伴い、音声認識と意図解釈を組み合わせた音声対話ソリューションや機械翻訳と多言語音声合成を組み合わせた音声翻訳ソリューションのような人工知能を用いた情報提供システムでの利用が拡がりを見せています。また、教育現場においては遠隔授業のための動画作成や、コンシューマーにおいてはユーザー生成コンテンツに音声合成が利用される機会が非常に増えており、音声合成技術がより身近なものとして浸透してきています。このように、音声合成技術の需要は今後もますます増加していくと考えております。
(1)当社の音声合成エンジン「AITalk®5」について
音声合成とはテキスト情報からその内容に即した音声波形を作り出す技術のことを言います。この技術は、テキスト情報を言語辞書に基づいて解析し、読み方やアクセント情報などを抽出・付与する「言語処理部」と、言語処理部で得られた解析結果から、音声辞書に基づいて音声波形を生成する「音声処理部」に分かれます。
当社の音声合成エンジン「AITalk®5」では、最新の言語辞書の利用に加えて言語処理部の解析アルゴリズムを改善することで、従来製品よりも高い解析精度を実現しています。また、音声処理部においては従来の「波形接続型音声合成方式」とともに「DNNパラメトリック音声合成方式」を提供しています。それぞれ次のような特徴があります。
①波形接続型音声合成方式
波形接続型音声合成方式は、収録した音声波形をある音声単位に分解し、入力されたテキスト情報に合うように波形を繋げて任意の音声を合成する方式のことを言います。当社では、母音、子音の音素片に分解した素片辞書と、収録音声から抽出した韻律情報を機械学習によりモデル化した韻律辞書を使って実現しています。
合成時には、言語処理部の解析結果から韻律辞書に基づいて韻律情報を予測し、予測した韻律情報と言語処理部の解析結果から最適な素片を選択・変形・接続し合成音声を生成しています。この方式では、収録音声波形をそのまま利用するため、肉声感の高く、収録した人の特徴が表れた合成音声を作ることができます。
②DNNパラメトリック音声合成方式
DNNパラメトリック音声合成方式は、収録音声から抽出した音声の特徴を表した音響パラメーターを音声辞書化し、入力されたテキスト情報から音声辞書を用いて予測した音響パラメーターを「ボコーダー」に与えることで音声を生成する方式のことを言います。当社では、音響パラメーター用の音声辞書として深層学習で用いられているDNNを採用しています。また、DNNの学習に当社独自の学習アルゴリズムを用いることで、高品質で滑らかな合成音声の生成を実現しています。
図 「AITalk®5」の概要
(2)「AITalk®」の特徴と当社の強み
当社の強みは、以下の4点になります。
①少ない収録音声
合成品質を向上するための一般的なアプローチは、音声収録数を増やすことです。一方で、音声収録数が増加することにより、収録時間が長時間に及び、また、音声辞書のサイズが大きくなりますので、音声辞書作成コストも増加します。当社では、少ない収録音声で高品質な音声合成を目指し、研究開発を進めており、一般的には、数10時間(数千~1万文章程度の収録)の収録時間を要するところ2時間~6時間程度(200~600文章程度の収録)の収録時間で音声辞書を作成することを実現しています。
②豊富な話者の提供
少ない収録音声で音声辞書を作成することを実現した結果、様々な音声辞書を提供する事が可能となり、本書提出日現在、日本語標準語の女性5話者、男性5話者、男の子2名、女の子2名、関西弁風の女性1話者、男性1話者の合計16話者を提供しております。
③Custom Voice(カスタムヴォイス)
従来は音声辞書の作成に数千万円の費用がかかっていたところ、少ない収録での作成を実現した結果、55万~500万円程度で作成することが可能となりました。その結果、特定の声優、ナレーター、キャラクター等、ご希望の音声辞書を安価に作成することにより、音声合成エンジンの利用範囲が大幅に拡がり、当社はこれまで370以上のCustom Voiceの作成を行っております。
④一気通貫での提供
音声合成エンジンを提供している競合他社は大手メーカーとなり、研究開発と製品開発あるいは販売が分離され
ています。当社においては、研究開発から製品開発、販売、サポートまでを全て自社内で対応しており、柔軟かつ迅速な対応を行える体制となっております。なお、外国語の音声合成エンジンについては、海外メーカーと提携し、展開しています。
(3)主な活用シーン
音声合成の品質向上に伴い、以前は、声優、ナレーターでの録音音声が利用されていた身近な様々なシーンにお
いて、音声合成エンジンの活用が拡がってきました。その様な状況の中、当社の音声合成エンジン「AITalk®」は、以下の様な様々なシーンにて活用頂いています。
①防災行政無線
防災行政無線、あるいは、全国瞬時警報システム(J-ALERT)にて、住民への放送用音声として、多くの自治体に活用頂いております。
②スマートフォン音声対話
スマートフォンにおける音声対話アプリの利用が拡大しておりますが、(株)NTTドコモが提供する「my daiz(マイデイズ)」、ヤフー(株)が提供する「Yahoo!音声アシスト」にて活用頂いております。
*「my daiz」は、(株)NTTドコモの登録商標です。
③ロボット
各社より様々なコミュニケーションロボットや業務用ロボットが提供されている状況の中、ソフトバンクロボティクス社が提供する「Pepper」や「Servi」、マツコロイド製作委員会が提供する「マツコロイド」等、多くのロボットにおいて活用頂いております。
④道路交通情報、カーナビゲーション
リアルタイムでの情報提供が必要となる道路交通情報、あるいは、全国の膨大な地点名を案内するカーナビゲーションにおいて活用頂いております。
⑤館内放送、駅構内放送
駅、空港、商業施設におけるアナウンスとしてご利用頂いております。
⑥電話自動応答システム
図書館における電話による休館案内、銀行における電話自動応答システム、あるいはコールセンターにおける電話による自動案内等、電話自動応答システムとして幅広く活用頂いております。
⑦ホームページ読上げ
全国自治体、各企業のホームページの情報を音声で提供するツールとして活用頂いております。
⑧音声ファイル作成
eラーニング教材のナレーション、発券機等の機器におけるガイダンス等で利用する音声ファイルを作成するツールとして活用頂いております。
⑨ゲーム
(株)セガ・インタラクティブが提供する競馬のアーケードゲーム「StarHorse」シリーズ、(株)タイトーが提供するアーケード用リズムアクションゲーム「テトテコネクト」を始め、ゲームのナレーション音声等で活用頂いております。
⑩コンシューマー向けパッケージ製品
当社オリジナルブランド「A.I.VOICE™」、(株)AHSから販売しております、「VOICEROID®」シリーズ等、コンシューマー向けパッケージ製品にて音声ファイル作成用途で活用頂いております。
⑪ニュース読み上げ
(一社)共同通信社が開発する「放送原稿読み上げシステム」のほか、各放送局においてニュースの読み上げ用途で活用頂いております。
(4)ビジネスモデル
当社は、音声合成事業の単一セグメントではありますが、「法人向け製品」「法人向けサービス」「コンシューマー向け製品」の3つの区分に分類しており、法人向けについては、顧客の特性に応じて、最適な製品またはクラウドサービスを提供しております。
①法人向け製品
<パッケージ販売:AITalk® 声の職人®・AITalk® 声プラス®・AITalk International®>
パソコンにテキストを入力するだけで、手軽に音声ファイルが作成できるパッケージソフトを販売しており、このソフトを使えば、誰でも簡単に直感的な操作で、高品質なナレーション音声を作成することができます。
図 「AITalk®5 声の職人」の画面
<ライセンスの提供:AITalk® SDK・AITalk® Server・AITalk® micro>
当社の主たるビジネスモデルは、ライセンスビジネスとなります。具体的にはお客様と使用許諾契約書を締結し、音声合成エンジンをご利用頂く対価として許諾料を頂くことになります。なお、許諾料については、初期に基本ライセンス料として一時金を頂いた上で、ご利用用途に応じて、月額使用料、販売実績に応じたロイヤリティ等を個別に設定しております。顧客の用途に応じて、最適な音声合成エンジンをご提供しております。
<受託開発:AITalk® Custom Voice®>
顧客独自のオリジナル音声辞書を作成する場合には、受託開発として請け負っております。
②法人向けサービス
<クラウドサービス:AICloud®シリーズ>
クラウド環境を活用した音声合成サービスの展開を進めており、インターネットを経由して以下のサービスをご提供しております。
・AITalk® WebAPI
WEBサービス等から音声合成エンジンを利用できるサービスで、手軽に音声合成を利用したサービスを開始する事ができます。
・AITalk® 声の職人® クラウド版
Webブラウザ上で、簡単に音声ファイルを作成できるサービスです。
・AITalk® Web読み職人®
ホームページにタグを埋め込むことにより、ホームページを読み上げるサービスです。
<サポートサービス>
法人向け製品をライセンス提供しているお客様に対して、継続的に技術的なサポートサービスを提供しております。
③コンシューマー向け製品
<A.I.VOICE™シリーズ>
音声ファイルを簡単に作成することができるパッケージを販売しております。Shopify Japan 株式会社が提供するサービスを活用した当社の「A.I.VOICE™」公式サイト及び、BASE株式会社が提供するサービスを活用し当社が運営するネットショップ「A.I.VOICE」Official shopでの直販と、量販店、Amazon等の販売店を介した流通販売があります。直販においては、Shopify Japan 株式会社及びBASE株式会社に決済等の販売手数料をお支払し、流通販売においては、卸価格で提供しております。「AITalk®5」を活用した個人向けオリジナルブランド「A.I.VOICE™」としては、以下を販売しております。
・A.I.VOICE™シリーズ 琴葉 茜®・葵®
声優「榊原ゆい」さんの声をベースにした、関西弁“風”の「琴葉 茜®」と、標準語のイントネーションで読み上げる「琴葉 葵®」の声で喋らせる事ができます。
・A.I.VOICE™シリーズ 伊織 弓鶴®
声優「松浦義之」さんの声をベースにした、優しく穏やかな声が特徴の「伊織 弓鶴®」の声で喋らせる事ができます。
・A.I.VOICE™シリーズ 羽ノ華™
声優「民安ともえ」さんの声をベースにした、はっきりとした中性的な声が特徴の「羽ノ華™」の声で喋らせる事ができます。
・A.I.VOICE™シリーズ 結月ゆかり
声優「石黒千尋」さんの声をベースにした、VOCALOMAKETSオリジナルキャラクターの「結月ゆかり」の声で喋らせる事ができます。
・A.I.VOICE™シリーズ 紲星あかり
明るく可愛らしい女の子の声をベースにした、VOCALOMAKETSオリジナルキャラクターの「紲星あかり」の声で喋らせる事ができます。
・A.I.VOICE™アナウンス部
いつもはニュース原稿を読んだり、企業向けのナレーションなどの少し真面目なお仕事が多いバーチャルアナウンサー達のラインナップです。
・A.I.VOICE™ Junior
A.I.VOICEのキャラクターとして新たに参入をしたいが、費用面などでハードルが高いと感じている方が比較的ライトにA.I.VOICE化を実現することができるサードパーティ向けのラインナップです。
図 「A.I.VOICE™ 琴葉 茜・葵」の画面
<その他のコンシューマー向け製品>
音声ファイルを簡単に作成することができる以下のパッケージを販売しております。
・かんたん!AITalk®
誰でも文字を入力するだけで、簡単に高品質なナレーションが作成できる個人ユーザー向けパッケージソフトです。
・かんたん!アフレコ®
文字入力だけで、動画にナレーションと字幕を追加できる個人ユーザー向けパッケージソフトです。
・AITalk® あなたの声®
ご自身や大切な方の声を、音声合成技術で再現します。パソコンさえあれば、いつでも、どこでも、様々な言葉を喋らせる事ができるパッケージソフトで、Custom Voice®をセットにした製品となります。
・VOICEROID®シリーズ
好みの文章や言葉をテキストで入力するだけで、読み上げ・保存することができる入力文字読み上げソフトです。
なお、「かんたん!AITalk®」「かんたん!アフレコ®」は、販売店に販売を委託しており、「VOICEROID®」シリーズは、株式会社AHSから販売しております。
[事業系統図]
事業系統図は以下のとおりであります。
お知らせ