【検証】生成AI での音楽ライブ・MVのMP3ファイルを「歌詞の文字起こし」させてみた |Geminiでのみ有効ですがアーチスト・アルバム名などメタデータ取得に弱い印象も

MP3ファイルの楽曲を生成AIにアップロードして「歌詞の文字起こし」させる方法を「検証」しました。
(関連記事)
MP3データの場合、著作権保護対策にうるさいようで文字起こしできない訳ではありませんが正確性はまだまだの印象
とは言っても、この手法で文字起こしが可能な生成AIサービスは、2026年3月現在、「Gemini」のみのようです。
手法としては、Geminiのプロンプト欄左下の「+」をクリック・タップして、文字起こししたいMP3ファイルをアップロードします。
続いて「このMP3ファイル内の歌詞を文字起こししてください」と入力し「実行」します。

日本語歌詞の場合、YouTube動画の楽曲情報から読み込むのに対し、MP3ファイル音声をそのまま「文字起こし」するようで、早口の部分など「読み飛ばし」される傾向が見受けられます。

また、外国語楽曲では、日本語よりやや精度は高いように感じます。
さらに和訳の場合「一度外国語で文字起こし→翻訳」する仕組みのようで、「日本語読み上げ」機能単体に比べ精度が高い印象(あくまで筆者個人的使用感)です。
今回の「検証」結果から、現状、MP3ファイルから「歌詞の文字起こし」を行うのは「まだまだ課題が多い」気がします。
単純に「MP3ファイル」内の「歌詞情報を取得」したいのであれば、以下の方法も有効です。
【PC環境】の場合(Windows11)
音楽ファイル管理ソフト「MusicBee」に「歌詞を表示するプラグインを追加する」方法も人気です。
【スマートフォン】の場合
ONKYO製の歌詞表示機能搭載音楽プレイヤーアプリ「HF Player」が便利です。
家電・AV機器ランキング 













