機械学習は実データに基づき学習する。実データに偏り=bias があればそれが学習結果に反映される。シカゴ市で、市民がスマートフォンで道路の損傷の報告をできるようにし、そのデータに基づきどこから補修していくかをAIで決める施策をとったら、結果として金持ちの多い場所が修理されるようになった。スマートフォンの保有率が高い地域から多くデータが集まったからと考えられる。マイクロソフトの人工知能チャットボットも、ネットの会話から学んだため人種差別発言をするようになった (ねとらぼ 2016/03/25 Microsoftの人工知能「Tay」が緊急停止 ネットで人種差別や陰謀論を学んでしまったため)
He is a nurse.
She is a doctor.
という文をトルコ語に翻訳させると、
O bir hemşire.
O bir doktor.
となる。このトルコ語を英語に再度翻訳すると、
She is a nurse.
He is a doctor.
となる。トルコ語の三人称代名詞に男性女性の差はなく、トルコ語の翻訳はあっている。これを英語にする際に、三人称代名詞が男性か女性かによって選択する必要がある。医師は男性が多く、看護師は女性が多いという実世界の状況が、実世界に存在するテキストにも反映され、"He is a nurse." よりも "She is a nurse." のほうがより確からしいと判断するのだ。
そしてさらにAIの判断が実世界に影響を与える。人種により犯罪の検挙率が異なれば、特定の人種に対する取り締まりを強化することになり、さらに人種の偏りは大きくなっていく。
畠山氏は、この問題は、本質的に解決が難しいと語る。AIはデータのみで判断し、その判断基準が倫理的に正しいかは知らない。そして深層学習においてはその判断基準自体が人間から見えなくなっているのだ。
畠山氏がこの問題の解決は、データ作成の時点から品質管理を行う必要があると語る。そして、データの分析、監視を続ける必要がある。
Googleも当然このことに気がついており、取り組みを進めている。6月25日 INEVITABLE ja night - “インターネットの次にくるもの” 第 9 回 デベロッパーカンファレンスから読み解くテクノロジーの不可避な流れ において、及川卓也氏と小島英揮氏の対談で、現在のカンファレンスでの話題の中心が、技術だけでなく、人工知能の倫理面にあることが示された。Google I/Oでは、"People+AI Guidebook" が発表された。これは人間中心AIの設計指針である。
及川氏は、「Google は過ちをするが、すぐに修正してきた。Google Translate ドクタ/ナースのバイアスを修正。そのバイアスを除くノウハウを提供している。」と語っている。
それをさらに具体的に話したのが、佐藤 一憲氏。 Google は"Machine Learning Fairness"という概念を提唱し、バイアスを避ける取り組みを行なっている。その一つが、Open Images Extended。よりダイバーシティの高いイメージデータを構築し、オープンにする。また、Fairness Indicatorという機能を提供しており、データをある視点でセグメントに分けたとき (例えば性別など)、セグメントごとの精度を示す。
先日来日したジェフ・ディーン氏がAIについて語っている記事があった (BUSINESS INSIDER 2019/07/11 Google AIトップが語った「機械学習モデルの公平性」はどう作り出すか)。
結婚式の写真について機械学習させるケースを一例にあげ、「北米からだけでなく、ほかの地域からも広く結婚式のデータをとってこなければならない。そうでないと日本やインドなど、世界にはさまざまなすばらしい結婚式が存在することを見逃してしまうだろう」と指摘。「データが世界中のあらゆるもの、多様性をしっかり反映しているか考えた上で、機械に学習させなければならない」と語った。結婚式の例は、Open Images Extendedの具体例だろう。
このGoogleの取り組みは、畠山氏が語った「データ作成の時点から品質管理を行う」ということ、「データの分析、監視」と合致していると言える。
データのバイアスは知らない間に入っている。そこに気づき、避けるようにするためには、技術者もしっかりした知識と、何が避けなければいけないバイアスなのかの哲学が必要だと認識しておく必要がある。
0 件のコメント:
コメントを投稿