スマホアプリのテスト前に、音声APIを試してみる - 荒れ地のままでも生きています

以前にドライバーアプリ開発について記載したことがあったのですが、丁度その頃に10年間も長々と打ち合わせをしていた光回線を引く話が、急遽今度は何の打合せもなく決まり、その後は契約者の代わりに調整と確認に追われまくったので、実質計画もほとんど宙に浮いて構想も考え直しのようになってしまった。

改めて、昔の構想を巻き戻してみた。たぶん簡単には行かないだろうとは思っていたが、まあ並行して色々次々と問題が起こる割には、結果責任も全て押し付けられる毎回のパターンに追われること。

それでも関係ない。最初に考えたアプリ「音声入力をスマホの待機状態で受け付けて、業務入力や備忘録などのメモをさせる」の構築を続けている。これはリニューアルオープン販促という企画と、更には自身の今後も含めた身分安定の対応とで全て並行で行うので大変だが、もちろん全部一変に行っていく、他に選択肢がないから。

音声入力なら、文字起こしで有名な「Whisper」がある、という所まで、区切れる以前は進んでいた。（その後例によって光回線の話が）モデルと料金など、判りやすい情報は非常に豊富だ。

【Whisper】OpenAIの文字起こしツール！モデル一覧、料金体系、APIの使い方を解説 | WEEL OpenAIのWhisperでAI文字起こし！価格・使い方を解説

ただやるなら先ずは、実際に変換テストから行ってみたい。先ずはローカルのマイクからの音声入力で、変換テストを行ってみようと思う。

HTMLのセキュリティがあるので、そのままでは機能しません。これは最初、Node.JPを導入してローカルサーバー上で行う予定だったが、素晴らしいまとめをしてくださっている方がいました。

qiita.com

中でもお手軽そうな「Web Server for Chrome」は、上手く使えなかったので（おそらく筆者の検討レベルが低いせいですが）最も主流の「Visual Studio Code」の拡張機能「Live Server」より、簡単なローカル環境を実現して、音声テストを行ってみようと思います。