英会話用に文字起こしツールを作ってみた（Whisper API）

2025年07月13日 09:40

はじめに

私は最近、オンライン英会話を始めました。

私が入会している英会話では、レッスンの録音を確認することができるのですが、1レッスンは25分と長いため、録音をすべて聞き返すのは大変です。
ChatGPTを使って録音から文字起こしができればよいのですが、現状ChatGPTでは録音の音声ファイルを直接アップロードして文字起こしすることはできません。

そこで、録音を文字起こしして、振り返りやすくするツールを作ってみました。
今回の記事では、OpenAIのWhisper APIを使って私が作成した、英会話の録音を文字起こしするツールを紹介します。

スポンサードリンク

私が作成した文字起こしツールは、以下の機能を持っています。

ソースコードはGitHubに公開しています。

そして、このコピーした内容を私が公開した以下のGPTsに貼り付け、送信することで英会話の概要や覚えるべき表現を確認できます。

利用上の注意点として、必ず個人利用の範囲で使用してください。
個人利用を超える利用の場合、英会話サービスの規約に違反する可能性があります。

文字起こしツールは、Next.jsとOpenAIのWhisper APIを使用したシンプルな構成です。
1分あたり約$0.006（日本円で約0.92円）と非常に安く、レッスン時間が25分の場合、約$0.15（日本円で約23円）で文字起こしが可能です。

その代わり、発言者の区別はできないため、誰が何を言ったかはわかりません。
ただ、ChatGPTに渡す際に、テキストの内容から発言者を推測することは可能なので、英会話の概要を確認する際には問題ありません。

スポンサードリンク

文字起こしツールは、GitHubに公開されているので、以下の手順で使うことができます。
コマンドを実行したりするので、もしコマンドラインの操作が苦手な方は、次のパートでもっと簡単に使えるオンラインツールを紹介しているので、確認してみてください。

git clone https://github.com/bpeldi2oerkd8/audio-transcription-tool.git

または

git clone git@github.com:bpeldi2oerkd8/audio-transcription-tool.git

cp .env.example .env

OPENAI_API_KEY="（ここにOpenAIのAPIキーを入れる）"

例えば、以下のような形です。

OPENAI_API_KEY="aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"

npm install

npm run dev

もし、GitHubからのクローンや依存関係のインストールが難しい場合は、Nottaなどのオンラインサービスを利用することがおすすめです。
上記のような複雑なコマンドの設定なしで、録音ファイルをアップロードするだけで文字起こしができます。

スポンサードリンク

今回、英会話の録音を文字起こしするツールを作成しました。
コマンド等の設定が必要ですが、GitHubに公開しているので、興味のある方はぜひ試してみてください。

また、GitHubのクローン等の設定が難しいと感じた方は、Nottaなどのオンラインサービスを使うことをおすすめします。
それでは、英会話の学習に役立ててください！