AI音声認識技術について

私たちは、普段の会話の中で他人の音声を自然に認識して意味を理解しているため、それが難しいことだとは思っていません。 しかし、性別、話し方の癖、言葉遣いなど同じ内容の声でも、人や場面によって大きく様相が異なるため、コンピューターが人の音声を正しく認識することは簡単なことではありません。今回は AI音声認識技術について 説明していきたいと思います。

音声認識技術とは

f:id:Haunth:20200211185448j:plain

iPhoneに搭載されたSiri

Wikipediaによると、音声認識技術とは、人間の声などをコンピューターに認識させることであり、話し言葉を文字列に変換したり、あるいは音声の特徴をとらえて声を出している人を識別する機能を指します。近年では、スマートフォンの音声入力やAIスピーカーの音声応答のような機能も音声認識技術を基に開発・実行されています。

音声認識技術の歴史

音声認識技術は60年ほど前より研究が進み始めました。実用化という点では、日本国内では、1990年代より商品化が進められており、音声入力を可能にする個人向けソフトウェア販売などが開始されてきました。しかし、まだ認識精度といった面でユーザの要望を満足できるレベルに達しておらず普及には遠いと言う状況でした。

2000年代に入り、機械学習アルゴリズムの進化により認識精度が格段に高くなるに伴い、カーナビやテレビの音声入力手段として本格的に普及が始まりました。2010年代に入ると音声入力だけでなくiPhoneに搭載されたSiriなどの応答や処理を返す音声アシスタントサービスが普及しつつあります。

https://next-offshore.com/2020/02/11/what-is-voice-recognition/