はじめに
私は最近、オンライン英会話を始めました。
私が入会している英会話では、レッスンの録音を確認することができるのですが、1レッスンは25分と長いため、録音をすべて聞き返すのは大変です。
ChatGPTを使って録音から文字起こしができればよいのですが、現状ChatGPTでは録音の音声ファイルを直接アップロードして文字起こしすることはできません。
そこで、録音を文字起こしして、振り返りやすくするツールを作ってみました。
今回の記事では、OpenAIのWhisper APIを使って私が作成した、英会話の録音を文字起こしするツールを紹介します。
スポンサードリンク
文字起こしツールの概要

私が作成した文字起こしツールは、以下の機能を持っています。
- 録音ファイルをアップロード
- 文字起こし結果の表示
- 文字起こし結果のコピー
ソースコードはGitHubに公開しています。
そして、このコピーした内容を私が公開した以下のGPTsに貼り付け、送信することで英会話の概要や覚えるべき表現を確認できます。

利用上の注意点として、必ず個人利用の範囲で使用してください。
個人利用を超える利用の場合、英会話サービスの規約に違反する可能性があります。
使用した技術
文字起こしツールは、Next.jsとOpenAIのWhisper APIを使用したシンプルな構成です。
1分あたり約$0.006(日本円で約0.92円)と非常に安く、レッスン時間が25分の場合、約$0.15(日本円で約23円)で文字起こしが可能です。
その代わり、発言者の区別はできないため、誰が何を言ったかはわかりません。
ただ、ChatGPTに渡す際に、テキストの内容から発言者を推測することは可能なので、英会話の概要を確認する際には問題ありません。
スポンサードリンク
文字起こしツールの使い方
文字起こしツールは、GitHubに公開されているので、以下の手順で使うことができます。
コマンドを実行したりするので、もしコマンドラインの操作が苦手な方は、次のパートでもっと簡単に使えるオンラインツールを紹介しているので、確認してみてください。
- GitHubのリポジトリをクローンまたはダウンロードします。
git clone https://github.com/bpeldi2oerkd8/audio-transcription-tool.git
または
git clone git@github.com:bpeldi2oerkd8/audio-transcription-tool.git
- .envファイルの作成
cp .env.example .env
- OpenAIのAPIキーをOpenAI Platformで作成し、.envファイルにOpenAIのAPIキーを設定
OPENAI_API_KEY="(ここにOpenAIのAPIキーを入れる)"
例えば、以下のような形です。
OPENAI_API_KEY="aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"
- 必要な依存関係をインストールします。
npm install
- 開発サーバーを起動します。
npm run dev
- ブラウザで http://localhost:3000 にアクセスすると、文字起こしツールが表示されます。

- 英会話サービスのレッスンの録音ファイルをダウンロードします。「ファイルを選択」ボタンを押し、そのファイルを選択します。

- 「アップロードして文字起こし」ボタンを押し、録音ファイルを文字起こしツールにアップロードします。

- しばらく待つと、文字起こし結果が表示されるので、「コピー」ボタンを押してコピーします。

- コピーした内容を、私が公開した以下のGPTsに貼り付け、送信します。すると、英会話の概要や覚えるべき表現が表示されます。

上記はハードルが高い人向けの文字起こしツール
もし、GitHubからのクローンや依存関係のインストールが難しい場合は、Nottaなどのオンラインサービスを利用することがおすすめです。
上記のような複雑なコマンドの設定なしで、録音ファイルをアップロードするだけで文字起こしができます。
スポンサードリンク
まとめ
今回、英会話の録音を文字起こしするツールを作成しました。
コマンド等の設定が必要ですが、GitHubに公開しているので、興味のある方はぜひ試してみてください。
また、GitHubのクローン等の設定が難しいと感じた方は、Nottaなどのオンラインサービスを使うことをおすすめします。
それでは、英会話の学習に役立ててください!