ドライバーアプリ制作目標@テスト前に音声APIを試してみる

改めて、昔の構想を巻き戻してみた。たぶん簡単には行かないだろうとは思っていたが、まあ並行して色々次々と問題が起こる割には、結果責任も全て押し付けられる毎回のパターンに追われること。

最初に考えたアプリ「音声入力をスマホの待機状態で受け付けて、業務入力や備忘録などのメモをさせる」の構築を続けている。 何でスマホアプリに拘るかは、これがクライアント側から提供された物であることの意味が強い。 クライアントとサービス側を結びつけれる要素として、両者が利益をお互いに高めれる要素というものは少なく、大抵は綱引きになる中で、このスマホアプリの開発での拡張と効率化を高めれれば、これを利用しない手はない、と考える訳です。

別の話が少し落ち着いたため(実際は開店後の方が勝負であり、当面は戦場が続くのでしょうが) 区切れる前の話に戻ると、音声入力なら文字起こしで有名な「Whisper」がある、という所まで区切れる以前は進んでいた。 モデルと料金など、判りやすい情報は非常に豊富だ。

【Whisper】OpenAIの文字起こしツール!モデル一覧、料金体系、APIの使い方を解説 | WEEL OpenAIのWhisperでAI文字起こし!価格・使い方を解説

ただやるなら先ずは、実際に変換テストから行ってみたい。 先ずはローカルのマイクからの音声入力で、変換テストを行ってみようと思う。

HTMLのセキュリティがあるので、そのままでは機能しません。 これは最初、Node.JPを導入してローカルサーバー上で行う予定だったが、 素晴らしいまとめをしてくださっている方がいました。

qiita.com

中でもお手軽そうな「Web Server for Chrome」は、上手く使えなかったので(おそらく筆者の検討レベルが低いせいですが) 最も主流の「Visual Studio Code」の拡張機能「Live Server」より、簡単なローカル環境を実現して、音声テストを行ってみました。

通常にブラウザ機能で、マイクの音声入力を受け付けて、文字として出力できるのですが、 誤差精度を飛躍的に高める技術として、昨今話題にならない日はないAI「OpoenAI」の「Whisper API」で、その精度を自分なりに実感してみることから着手してみました。論理構築より実感がないと進めれないのは、イマイチに周辺環境と基盤が弱いこともありますが。