東北工業大学 工学部教授
警察庁→防衛庁→警察庁→大学の研究者
私は子どもの時から船が好きで好きでたまらず、造船に携わるのが夢でした。しかし途中あまりにもいろいろとあり過ぎて(笑)、なぜか音声の研究者になりました。
大学を卒業する時、就職先の第一志望は防衛庁でした。もちろん艦船に関わる技術者になりたかったからです。ところが第二志望で受けた国家公務員試験で一次を通ると、すぐに警察庁から声がかかりました。経験したことがないくらい期待され、つい入庁を承諾してしまったのが間違いでした(笑)。
そのあと防衛庁も通ったのですが、やむを得ません。新年度になると警察大学校で研修が始まりました。警察官は都道府県ごとの採用で、最初に警察学校に入ります。一方、警察庁の警察大学校には警部に昇任する人などが全国から集まりますが、私のように国家公務員試験を通った新人の教育も行うのです。
この研修が4カ月もあって、しかも最初の数週間は敷地から出られません。技術職の私も、ランニングや柔道・剣道をやりました。最初に配属されたのは神奈川です。県警の中に情報通信部という警察庁の部署があって、そこで研修を受けました。神奈川県警は横浜港に面しているので、毎日船を見られたのは良かったですね。
翌年4月からは霞ヶ関の本庁勤務になりましたが、「防衛庁にしておけば」という氣持ちが抑えきれません。結局半年後には試験を受け直して、ついに防衛庁に採用されました。しかし艦船に関わる部署を希望しても、そう簡単にはいきません。当時六本木にあった本庁に、行政技官として配属されます。仕事は装備品の原価計算などで、「警察庁でも防衛庁でも、技術職ひと筋で貢献したかった」と悩みながら勤務していました。
防衛庁に入って3年目、ついに念願の艦船関連業務に就きました。神戸の造船所で、仕様通りに作業が進んでいるかを検査・確認する業務です。幸せでしたが、研修を兼ねた配属であらかじめ1年で転属になることが決まっていました。そうした時に警察庁時代の知人から、研究職に空きが出そうだという話を聞いたのです。
工学系では「修士号がスタート地点」と言われます。学部しか出ていない自分に研究職は無理だろうと思いつつも、これは絶好の機会です。またしても国家公務員試験を受け直して合格し、当時は千代田区三番町にあった科学警察研究所、略して「科警研」に入りました。
「犯人の声」の記憶は何日もつか
テレビドラマで有名な「科捜研」は、各都道府県の警察にある科学捜査研究所の略称です。これに対して警察庁の科警研は、犯罪捜査や交通事故防止のための研究、全国の科捜研から持ち込まれる資料の検査、科捜研のスタッフの教育などを行います。たいへん地味な仕事で、「科警研の男」が主役のドラマ化は難しいと思います(笑)。
科警研には20以上の研究室があって、私はたまたま空きが出た、音声を扱う研究室に配属されました。それまで音声はほとんど扱ったことがありませんでしたが、手がけてみると、これが面白いのです。詐欺、脅迫、誘拐などの事件で、犯人の電話の声の録音は重要な捜査資料になります。犯人と被疑者の声を比較して同一人物の可能性を探る、録音から雑音を除いて犯人の声だけを明瞭にする、逆に犯人の声以外の音から捜査に役立ちそうな情報を探る、などの研究に加わりました。
テレビドラマではコンピュータが、録音データを基にズバリ答えを出してくれたりします。しかし現実には犯人の声の録音があるとは限りません。氣の弱い犯人は一度しか電話してこないでしょう。その場合、録音はできません。しかし録音が残らなくとも、声を聞いた人はいます。その声の印象を捜査に役立てたいと考えました。声の印象、これを「目撃」に対して「耳撃(みみげき)」と言います。「耳撃者」には、すぐに声を忘れてしまう人と、60日経っても記憶が確かな人がいて極端です。音声情報科学は工学の一分野ですが、実際には言語学、心理学、統計学などを用いて総合的にアプローチします。
捜査資料の鑑定・検査や教育業務が忙しく、自分で興味を持ったテーマは土日に自宅に籠もって進めました。その成果を学会で発表する中で、大学の研究者とも知り合います。中でも当時宇都宮大学にいらした粕谷英樹先生には良くしていただき、「ウチで勉強したら?」と誘っていただきました。国内留学という形で、1年間研究に専念できることになった時にお世話になり、博士号の取得を決意します。勤務があるので、大学院には土日しか通えません。粕谷先生にご無理を聞いていただいて指導を受け、2001年、「発話の声質表現に関する研究」という論文で博士号を取得しました。そして2003年のある日に、学会と艦船見物で行った広島でたまたま本学の先生に出会い、「実は音声の研究者を探している」と聞いて氣持ちを固めました。母校の教員になったのは、40歳になる年です。今でも警察とはご縁があり、しばしば宮城県警の鑑定に協力しています。
指紋ならぬ「声紋」を捜査の手がかりに
音は空氣や水の振動で伝わり、その要素は強さ、高低、音色の3つです。振動が多いほど高い音になり、1秒あたりの繰り返し数を「周波数」と言います。単位は「ヘルツ」です。
人は耳の奥の鼓膜で振動を感知し、聞き取れる周波数の範囲は20から2万ヘルツです。一方で話す方は、まずのどの奥の声帯を震わせます。この原音はブザーのような音で、男性が100ヘルツ、女性が200ヘルツくらいです。これがのどや口の中などの「声道(せいどう)」を通って唇から出ることで、人間らしい声に聞こえたり、声に個性が生じたりします。
このように、声道の形によって音色が加わることを「調音」と言います。声帯が発した音は、声道内で反射して共振することで、多くの周波数成分を含んだ声になるのです。こうした分析を行うと、声の「その人らしさ」を科学的に示すことができます。たとえば犯人の声と被疑者の声を比較して、「同一人物の可能性が高い」と言えるようになるわけです。
声を視覚化したものの代表は、「波形」と「声紋」です。時間に従って音の強さを表したもの、これが波形です。一方、声紋は声に含まれる周波数成分の強弱を、時間に従って表したものです。声帯が発した音原や、共振で発生した音の構成を調べることで、声の個性を把握することができます。指紋のように完全に個人を特定することはできませんが、同じ言葉を話した録音データを比較すれば、「声紋がほぼ一致している」と結論付けることは可能です。
私たちはふだんの会話でも、音声から豊富な情報を得ています。言葉の意味内容である「言語情報」だけでなく、性別や個人性を表す「非言語情報」、そして相手の意図・態度・感情を表す「周辺言語情報」も、同時に受け取っているのです。
従って電話などの声の質からも、年齢を感じ取ることができます。声を聞いて年齢を当てる実験をしても、なかなか正解はできません。相関関係はありますが、平均で7.2歳のずれが出るため、声だけで年齢を推定することは困難です。ところが「歳をとった感じか若い感じか」と尋ねて7段階で答えてもらうと、実年齢の高低と、きわめて強い相関を示すのです。
音声情報科学を支える機材は急速に進歩しています。私が科警研に入った頃、声紋を描く機器は一千万円くらいしました。今では同等の性能のソフトが、インターネットから無料で手に入ります。私も、声紋データをたくさん読み込んで自動的に学ぶプログラムなどの開発に取り組んできました。また、年齢による話す速さや基本周波数の変化から、人がどのように声で年齢を推定しているのかを明らかにする研究も進めています。
本学では今年度から、全ての入学生に数理・データサイエンス・AI教育を必修化しました。私はその責任者として、「AI教育推進室」の室長を務めています。警察の捜査はもちろん、社会の様々な場所でお役に立てるよう、これからも研究と教育に取り組んでいきたいと思います。
研究者プロフィール
専門=音声情報科学
《プロフィール》(きど・ひろし)1964年福島県生まれ。東北工業大学工学部卒業。宇都宮大学大学院 工学研究科 修了。博士(工学)。国家公務員として警察庁、防衛庁に勤務し、警察庁科学警察研究所 主任研究官を経て、2004年、東北工業大学工学部に助教授(准教授)として着任。2014年より現職。