前回はGemini Speechを使ってニュースキャスターに原稿を読んでもらいました。
テキストを貼り付けるだけで10分かからずに簡単に音声を生成してくれました。
今回は「二人での会話」に挑戦しましょう。することはそれほど変わりませんが、二人の掛け合いがしっかりできるのかどうかが興味深いですよね。みなさんもぜひ記事を見ながら一緒に挑戦してみてください。きっとAIのすばらしさを感じることができますよ。
AIでカップルの会話を再現

前回の続きなのでGoogle AI Studioにはログイン済で、Generate Speechの画面にいるという前提で進めます。
まだそこまで進んでいない人は前回のブログを確認してください。
まずは二人の声を選択
まずは右側のModeを「Multi-speaker audio」に変更します。クリックするだけで選択できます。そうすると下記のような画面になります。

最初に話者の声を選択しましょう。これは基本的に前回の「Single-speaker audio」の時と同じです。単純に二人になったので二人分の声をセッティングするだけです。

会話のテキストを入力
では次に中央上の「Style instructions」の部分を調整します。意味は「文書や出版物において、書き方、書式、語彙、デザインなどの統一性を保つための基準や指針」になります。

この会話での基準となるものをここでセッティングできるのだと思いますが、あまりよくわかっていないので私は「穏やかな雰囲気で」と指示だけしました。
続いて会話を入力していきますが、ここは一人モードより入力が少し面倒です。テキストを一発でコピペするのではなく、セリフごとに設定をしていかなければなりません。しかしこれはまだ試作段階のAIなので最終的にはもう少し改善されるのではと思います。
ではセリフを順番に入れていきましょう。今回もGeminiを利用してカップルの簡単な会話を生成してもらい、それを貼り付けていくことにしました。

会話の完成
いかがですか?セリフを入力しただけなのに、すごく感情がこもった会話になっていると思いませんか?「ふふ」とかの笑い声もすごく自然でこんな簡単でいいの?って怖くなってしまいます。
感情にあふれる会話
では最後にもう一つ試してみましょう。今度は感情を指定してみたいと思います。会話文の中にプロンプト(命令)をいれて動作するのかが気になります。
例えば会話文の中に
#焦っている「いやいや、今回はマジだって!信じてくれよぉ。ほらみてみろよ、この写真!」
という感じで感情を指示する言葉をいれて反映されるのかを見ていきます。会話文は今回もGeminiに生成してもらって、会話を貼り付ける時にセリフの手前に感情を挿入してみました。

感情を見事に?反映
結果は少し変なところもあったので70点くらいでした。プロンプトを読み取ってしっかりと感情表現をしてくれましたが、一部プロンプトをそのままセリフとして読んでしまったりもしました。
ここら辺はまだまだ開発中なのかと思いますが、それでも未来を感じますね。みなさんもぜひ一度この記事を見ながら自分で試してみてください。無料で使える今のうちに経験した方がゼッタイいいと思います。
まとめ
2回にわたって音声生成AIを紹介してきました。いかがでしたか?テキストから音声を作る機会がそんなにないよって人もいるかもしれませんが、こんな簡単にできるんだってことを知っておくのは大事だと思います。
例えるならば普段自転車に乗ることはめったにないけど「自転車に乗れる能力」は持っていた方がいざというときに役立つし、行動範囲も広がりますよね。しかもそれほど難しいことでもないです。
ぜひ一度トライしてみてください。そしてもっと知りたくなったり、わからないことなどがあれば何でも教えてくださいね。
コメント