AIを使って文字起こししてみる - 令和三年のピンホール

友人のZINEに、インタビュー形式で録音した音源を元にした原稿をのせようという話になりました。録音時間にして2時間2分。実質ZINEに載せる部分の会話は1時間未満でした。自力でひたすら書き起こしながら音源を行ったり来たりするのは効率が悪いので、AIを使った文字起こしをしてみたいと思います。

やり方はいくつかありますが、今回は以下の2つを使用しました。

①GarageBand（音声の切り抜き）

②writeout.ai（文字起こし本体）

使用PCはMacBook Pro(8GB)、OSはCatalinaです。

0. 音声を録音する

自分はソニーのICD-TX660というICレコーダーを使用しています。それと並行してPCM録音というアプリも使っています。

1.　音声を切り抜いてみる

GarageBandを開き、左から2つめのマイクアイコンを選択して[作成]をクリック。

すると画面中央にデフォルトで「オーディオ」というファイルが入っていますので、その下に音声ファイルをドラッグ＆ドロップしてライブラリに追加します。デフォルトで入っているファイルは不要なので削除します。

ここで説明するのは取りかかった作業の一部分です。

欲しい音声の部分が24分5秒の位置からスタートするので、その前の雑談部分を切り取ります。

あらかじめ必要な抜き出し部分が分かっている場合、ビート表示だと時間が読めないので、右端のつまみから[タイム]を選択して秒数表示にします。

音声を区切る部分まで再生位置を持ってきたら、[編集]＞[再生ヘッドの位置でリージョンを分割]を選択します。

すると音声ファイルが2つに区切られます。

前半部分を削除すると必要な部分だけを残すことができます。

この作業を何度か繰り返して、大きく4つの音声ファイルを作りました。

2. 文字起こししてみる

米OpenAI社のWhisperを簡易化した「writeout.ai」を使いました。

Whisperは無料の音声認識モデルの中でもかなり精度の高いものですが、コードを入力して初期設定しなければならないので、初心者には難しいと感じました。

使い方は以下の記事にまとまってます。

ただ、公開時点では無料だったようですが、私が使用した3月27日時点では１ファイル当たり4.99ユーロ（約714円）かかる仕様になってました。

あと１ファイル当たり25MBにおさめないといけないです。

オプションで音声の説明文を入力する欄がありましたが、精度にどう影響するのかは不明です。

数分ほどで生成された文章がこれ。

「淡路島」が「川島」になってたりところどころ日本語がおかしなところもありますが、体感として軽微なミスは10個にも満たないくらいのクオリティです。聞き取りにくいところを補って文章として成立させている部分もちらほらあり、かなり使えるなという印象です。

会話の最中に考えがまとまって意見がブラッシュアップする、という経験はよくあることですので、

作品づくりや展示のステートメント作成、議事録作成にも応用できると思います。

ほかにも自分はこんなふうに使っていますという話があれば教えてください〜。