音声文字起こしサービスは仕事効率化の中で重要なツールの一つです。しかし、文字起こしサービスの品質はまちまちです。この記事は人気文字起こしサービスGoogle Speech-to-Text、ai whisper、nottaの精度、スピード、使いやすさ、利便性、料金などを比較します。
文字起こしサービス -Google Speech-to-Text
はじめに比較したいのは、Googleより提供した音声文字起こしサービスです。このサービスでは、一ヶ月あたり 60 分間までの音声の文字起こしを無料で行うことができます。その無料利用分を超えると、追加$0.024/1分(3円/分)の料金を払う必要があります。
GoogleのSpeech-to-Textが対応している言語が多く、日本語、英語、ドイツ語など、125以上の言語のテキスト化に対応しています。
Google Speech-to-Textで文字起こしする手順:
Step1.Google Speech-to-Textにアクセスし、「音声文字変換を開始する」をクリックし、アカウント登録します。
Step2.操作画面に入り、Speech to text項目で「ENABLE API」(APIを適用)をクリックし、AI音声処理を適用します。
Step3. 「Create transcription」(文字起こしを作成)をクリックします。
Step4.音声ファイルを追加し、設定を行います。
- 「Audio Configuration」(音声認識)で音声ファイルをアップロードし、「続行」をクリックします。
- 「Transcription options」(文字起こし設定)でAPIバージョンをV1に設定し、音声ファイルの言語を選択したら、「続行」をクリックします。
Tip: 「Model adaptation」「モデル適応」はオンにするか、オフのままにするか、どちらでも構いません。
- 上記の設定が完了したら、「送信」をクリックします。すると、音声のテキスト化は開始されます。
Step5.完了したら、リストで該当ファイルをアクセスし、確認できます。
【文字起こしの精度】★★★★☆
【文字起こしのスピード】★★★★☆
【使いやすさ】★★★★☆
【料金・価格】★★★★☆(1分あたり3円)
【メリット】
毎月無料60分の音声をテキスト化できる
150以上の言語に対応
Wav、MP3など多くの音声形式に対応
無料で変換後の文字をダウンロードできる
タイムラインで文字を区切っている
【デメリット】
句読点入力に対応していない
単語認識は最初の単語が大文字ではない
操作画面では日本語と英語が混雑している
【実際に文字起こしをした結果】
Googleの音声文字起こしサービスで日本語と英語を検証した結果:
日本語の場合、370文字が10文字の誤りがありました(合計3箇所)。
英語の場合、178単語が3つの単語の誤りがありました(合計3箇所)。
【どんな方におすすめか】
タイムラインで文字を区切っているため、動画の音声をテキストに変更し、字幕として追加したい方におすすめ
文字起こしサービス – ai whisper
AI whisperはOpenai社が提供した無料の文字起こしサービスです。こちらは海外提供のサービスですが、日本語の音声でも高精度で認識し、テキスト化できます。公式が公開された情報によりますと、AI whisperが日本語文字起こしの精度の単語誤り率は5.3%程度です。(一番精度が高いのはスペイン語で、単語誤り率が3%です。また、英語の単語誤り率が4.2%です。)
AI whisperで文字起こしする手順:
Step1. 下記のURLにアクセスします:https://huggingface.co/spaces/openai/whisper
Step2.3つの文字起こしオプションがあります。ここで「Audio file」(ローカル音声ファイル)を例にして手順を説明します。
Step3.音声ファイルをアップロードし、「transcribe」を選択し、「送信」をクリックしたら、音声の文字起こしは開始されます。
Step4.しばらくすると、文字起こしは完了され、画面の右にテキストが表示されます。文字を選択したら、テキストをコピーし、保存できます。
【文字起こしの精度】★★★★★
【文字起こしのスピード】★★★★★
【使いやすさ】★★★★★
【料金・価格】無料
【メリット】
56以上の言語に対応
録音して音声をテキスト化できる
ローカル音声ファイルの文字起こしに対応
Youtubeの動画の文字起こしに対応
無料で利用できる
【デメリット】
話者の認識はできない
句読点の自動入力はできない
サービスは時々不安定であることがある
重複生成するところがある
【実際に文字起こしをした結果】
AI whisperの文字起こしサービスで日本語と英語を検証した結果:
日本語の場合、370文字が2文字の誤りがありました(合計1箇所)、ただ、テキスト重複生成の箇所は2つありました。
英語の場合、英語の音声は完璧に認識されました。ただ、最初のBGMが付いている部分では、人の話し声が文字に変換されませんでした。
文字起こしの精度について、GoogleのSpeech-to-Textと比較すると、AI whisperの精度はより高いと思います
【どんな方におすすめか】
文字起こしサービスを無料で試してみたい方
改行や話者の認識できないを気にしない方
文字起こしサービス- notta
Notta社により開発された高精度の自動文字起こしサービスです。日本語、英語、ドイツ語、フランス語など15の言語の文字起こしに対応します。
公式の情報によると、一時間の音声を5分で文字に変換できます。
nottaで文字起こしする手順:
- Nottaの公式サイトにアクセスし、アカウント登録します。
URL: https://www.notta.ai/
- 音声を導入する方法は多くあります。ここでは、ローカルファイルのアップロードを例に手順を解説します。
- 「インポート」をクリックしますと、ファイルアップロードのウィンドウが表示されます。
- ここで、話者の識別、ファイルの言語などを設定しておけば、ファイルをアップロードします。
- アップロード完了後、自動的にテキスト化し始めます。ウィンドウを閉じたら、文字起こしされたファイルを確認できます。
【文字起こしの精度】★★★★☆
【文字起こしのスピード】★★★★★
【使いやすさ】★★★★★
【料金・価格】★★★★★(有料プランは1分で1.5円)
【メリット】
認識率は98.86%
最大10名までの話者を識別できる
句読点の自動入力にも対応
多くの形式に対応:mp3,wav,m4a,mp4,movなど
無料版は毎月120分の音声を文字に変換できる
有料版は文字の校正もできる
録音、録画、ローカルファイル、会議などの文字起こしに対応
【デメリット】
同一の音声ファイルは日本語と英語が混ざったら認識精度は下がる
無料版は1ファイルの最初の五分の音声のみをテキスト化できる
【実際に文字起こしをした結果】
Nottaの文字起こしサービスで日本語と英語を検証した結果:
日本語の場合、370文字が8文字の誤りがありました(合計4箇所)
英語の場合、178単語が1つの単語の漏れがありました(合計1箇所)。
【どんな方におすすめか】
会議や対話の音声をテキスト化したい方
動画ファイルの音声をテキスト化したい方
文字起こしサービスの比較表一覧
Google Speech-to-Text | AI whisper | notta | |
文字起こしの精度 | ★★★☆☆ | ★★★★★ | ★★★★☆ |
文字起こしのスピード | ★★★★☆ | ★★★★★ | ★★★★★ |
使いやすさ | ★★★★☆ | ★★★★★ | ★★★★★ |
話者の認識 | ❌ | ❌ | ✅ |
句読点の自動入力 | ❌ | 日本語❌英語✅ | ✅ |
料金・価格 | 無料版は毎月60分、その後は3円/1分 | 無料 | 無料版は毎月120分、有料版は月額1200円/1800分(平均的に1.5円/1分) |
おすすめ度 | ★★★★☆ | ★★★★★ | ★★★★★ |
まとめ
今回では、音声の文字起こしサービスを3つ検証して、比較しました。この記事を参照して自分の需要に一番合っているツールを選びましょう。