松尾画報

辺境のカンガルーの近況

音声認識がすごい

私、ちょこちょことインタビュー記事を書くことがあります。

大学、病院、メーカー関係の仕事あたりで特に多いんですね。

数十分程度、長いものでは2時間ほど相手と話をします。

会話は必ずテープレコーダーで録音しておいて、

後日、その音声を参考に原稿をまとめていきます。

 

イヤホンで録音を聞きながら、キーボードをカタカタ。

文字通り「文字起こし」と呼ばれます、この作業。

あからさまにいらない部分はカットしますが、基本、聞いたままに文字起こし。

これが終わると、原稿の素材が出来上がってるわけですね。

あとはこれをあれこれと整えながら、完成に近づけていきます。

 

単純に2時間のインタビューなら、2時間録音を聞くわけです。

ただ私の場合、話すのと同じ速度でキーボードを打てないので、

一時停止と再生を繰り返しながら進めていくわけです。

余計に時間がかかります。2時間のインタビューなら、きっと3時間以上費やします。

はっきり言ってめんどくさい作業です、文字起こし。

 

しかしこの面倒な作業に、最近、革命が起きたんですよね。

タイトルの通り、もうね、最近の音声認識がすごいんですよ。

録音を聞きながら、音声文字入力モードにしたスマホに向かって読み上げるんです。

キーボード叩くよりもずっと速く、すらすらとテキスト化してくれます。

精度はそれなりにムラはありますが、まあどうせ後で組み替える文章ですしね。

 

そんなわけで、夜な夜なイヤフォンをしてスマホに話しかけてます。

なんだか妙に虚しくなる夜もありますが、さすがにこれは人前ではできない。

ブツブツとスマホに話しかける同僚がいるオフィスは…、ちょっとねぇ…?

便利なると同時に、家に持ち帰る仕事が増えました。

うーん、いいんだか悪いんだか。なんかモヤっとしますねぇ。