AIで音声入力が実用的になってきました

AIによるアイキャッチ

1. 背景と現状の制限

手術後の後遺症で視力がまだ完全に戻っていないため、パソコンやスマートフォン、テレビを長時間見ることは禁じられています。本来は1時間から2時間程度に制限するよう指示されていますが、仕事上それでは厳しいため、自己責任で時間管理と休憩を徹底するしかありません。 また、中学生のころにパソコンを買ってからここまで、30年以上、デジタル機器を触らなかったことがない私です。それなしでの生活などは考えられません。

2. 音声入力の導入と利点

そこで、改めて活用しているのが音声入力です。目を閉じたり、窓の外の景色を眺めたりしながら入力できるため、画面を見続けなくて済みます。現在、これが実用的になってきています。昔、AIが発達する前にパッケージソフトで音声入力を試したことがありますが、私は全国規模のタイピングコンクールで入賞できるほどタイピングが速く、当時は手で打った方が早いという状態でした。

3. 音声認識技術の進化

最近(といってももう数年はたっていますが)AI的アプローチにより音声認識の精度が大幅に向上しました。現在使用しているのは Windows に搭載されている標準音声認識システムで、Windowsキー+H だけで高精度の認識が得られます。Android でも Google 音声入力がクラウド経由で優秀な認識結果を返してくれるので、これだけで音声認識的には、実用的だと感じます。

4. 残る課題

それでも音声入力には課題が残ります。1つは誤入力、もう1つは「あー」「えー」といった口語表現がそのまま文字化される点です。タイピングならすぐに修正できますが、音声入力ではそのまま残ります。また、誤変換や句読点の欠如、書き言葉と話し言葉の違いも問題になります。

有名な音声入力ユーザーである勝間氏などは口頭で高いクオリティの文書をそのまま入力できるようですが、さすがに私はそこまでのことはできません。そこで、LLMの力を借りることにしています。

5. LLM による文章整形

音声認識で得たラフな文章を「読みやすい形に整えてください」といったプロンプトとともに ChatGPT などへ渡すと、かなり綺麗に成形してくれます。実はかなり前から試していて、以前は文意が曲解されたり勝手に要約されたりと難しい面がありましたが、GPT-4o登場前後ぐらいから、あるいはGemini 2.0ぐらいから、ある程度安心して任せられるレベルにまで改善されました。

6. 読みやすさと“自分らしさ”の両立

LLM が優秀すぎるがゆえに私独特の“手癖”が消え、自分の文章ではないような違和感を覚えることもあります。医師から本格的にパソコン使用の許可が出たら、プロンプトをさらに研究し、個性を保ちつつ整形できる方法を模索したいと思います。

7. 仕事への応用…はまだまだ

仕事への活用も試行中ですが、ビジネス文書では簡潔さや箇条書きなどの利用による正確さなどが求められるため、まだ音声入力による最適解にたどり着いていません。どうしても長くなってしまうという自分の利用方法的なスキル不足もあります。

一方、ブログや日記のような用途では、音声入力+AI整形でほとんど修正不要のレベルに達しています。

ということで、今後は労力を減らしてここの更新を増やし、ネットの海に文章を蓄積することで、少なくともAIが食べることで何かだれかの糧になればと考えています。