VB-Audio とGoogleドキュメントで、オンライン動画、又は、ローカルに保存された動画・音声ファイルより、自動で文字起こしができることは、最近、知られてきていますが、実際、どの程度の精度なのか確認してみました。特に、講義動画を文字に起こしたいと思いましたので、1時間半くらいのものに対して、文字起こしができるかどうかを試してみました。特に、講義動画などは、1時間半あっても、実際に文字として読んでみると、10分もかからなかったりしますので、案外、長い割には、内容が薄いことも多く、そのようなものに、文字起こし資料が添付されていれば、かなり親切だと思います。

まずは、使用しているPCはWindowsを使っています。一応簡潔にインストール方法など一連のながれを記載しておきますが、結局、結論からいうと、かなり微妙でした。

必要なもの

下記の2つを使える状態にしておく必要があります。

・VB-Audio Virtual Cable ・・・音声出力(一般的には、スピーカーで音)をマイク入力していたチャンネルに入力する。用は、音響機材であれは、専用シールドなどで、接続するのですが、このソフトは、パソコン内の設定で、双方の接続を可能にしています。

・Googleドキュメント ・・・Googleのドキュメント作成の為のオンラインサービス。音声入力可能。Googleにアカウントがあれば使用可能です。

VB-Audio Virtual Cable

こちらより、ダウンロード(VBCABLE_Driver_Pack43.zip)可能です。オレンジ色のdownloadボタンよりダウンロードしてください。ダウンロードしたzipファイルは解凍して、その中の、VBCABLE_Setup.exe(32btのPCの場合)、又はVBCABLE_Setup_x64.exe(64btのPCの場合)より、インストールをスタートします。この時に、かならず、右クリックより、管理者権限で実行してください。普通に実行するとエラーがでます。

次に、インストールが完了したら、画面右下のスピーカーより右クリックで、再生ディバイスと、録音ディバイスに、今回、インストールした、CABLEを既存ディバイスに指定します。こちらの設定はこれだけです。ただ、文字起こしする時だけの設定となりますので、この状態だと、音声ファイルやオンライン動画の音声を聞くことができないので、利用するときだけの設定となります。それ以外のときは、元に戻しておく必要があります。

googleドキュメント

次に、Goolgeドキュメントのほうです。新しいドキュメントを作成して、メニューのツールの音声入力より、表示された録音マークをクリックして、音声入力を開始します。その後に、文字起こしをしたい、音声ファイル、又は、動画を再生します。これで、自動で、ドキュメント側に文字起こしされます。

文字起こしの精度は?

おそらく、ご想像のと通りだと思われますが、日本語の標準語であれば、8割りほどは、正確に文字起こしされますが、やはり会話の音声となると、機械が解釈できないような間があったり、聞き取りにくい音声があったり、そのあたりが少々正確に判断できていないようです。漢字の変換ミスもあります。また方言や、漫才などの音声は、ほぼ正確に認識されません。もともと、Googleドキュメントの方が、本来は、キーボード入力の代替としてマイクでの人の声を入力用として、拾うことを目的とした仕様になっているので、標準的な言語に当てはまらないと認識されないようです。また、断片的に入力していくのが望ましいようです。一方で、今回のように、1時間半動画を再生して、一気に、文字を抽出しようとすると、使用中に、接続が困難になり、タイムアウトしたような状態になります。つまり、長い音声を解析には少々無理がありそうです。せいぜい2、3分ほどです。なので、少々長い、動画の音声を抽出するできるようなことはありません。逆に時間がかかります。