前回は深層学習の生い立ちを、人工知能の進化を追って解説しました。
しかし、深層学習が現在の立ち位置を円滑に獲得できたわけではありません。
今回は深層学習が実用的に運用されるまでの歴史を、順を追って理解していきます。

形式ニューロンとは

ニューラルネットワークは形式ニューロンという部品を沢山集めて利用する学習モデルです。

形式ニューロンとは人間の視覚や脳の神経細胞を模倣し、機械的に表現したものです。
人間の脳や体は多くの神経細胞によって成り立っていますが、ニューラルネットワークは形式ニューロンから成り立っています。
実はこの形式ニューロンは第1次AIブームの時代から既に提唱されているのです。
しかし当時は機械学習という考え方がなかったために、とても難しい形式ニューロンの結合を制御しなくてはなりませんでした。

\[f(x_1,\ldots,x_n) = \sigma(w_0+\sum_{i=1}^n w_ix_i)\]

これは神経細胞を模倣した形式ニューロンの数理モデルです。
対象の形式ニューロンに対して接続されている形式ニューロンの電気信号が、一定以上の閾値を超えた場合、電気信号が発火するという事を示しています。
詳しい説明は以降の講座で取り扱いますので、今はイメージとして理解するだけで構いません。

ニューラルネットワーク

形式ニューロンを利用した機械学習モデルのことをニューラルネットワークといいます。
ここで紹介するのは理解しやすい階層化されたニューラルネットワークですが、それ以外にも様々なニューラルネットワークが研究、提唱されています。

単純パーセプトロン

最初に想定された形式ニューロンの扱い方

形式ニューロンを並列に何個も繋げて表現したモデルを単純パーセプトロンといいます。
その中で、電気信号を入力する形式ニューロンを入力層、電気信号を出力する形式ニューロンを出力層といいます。

人間の神経細胞から発想を得たこの手法は期待こそ多く集めましたが、 単純パーセプトロンでは線形分離できない関数を表現できないことが指摘され、 第一次AIブームとともに研究が下火となります。

線形分離とは

分類問題において、平面では直線で、空間では平面で分割できないような問題のことを言います。

例えば、毒キノコと食用キノコの分類について考えてみます。
キノコの色と大きさの二つのパラメータが与えられえます。
このデータは二次元のデータとなり、平面上にプロットすることが出来ます。
このような二つのデータセットがある時、左は線形分離可能で、右は線形分離不可能となります。

多層パーセプトロン

第2次AIブームで線形分離不可能な問題に対して、多層パーセプトロンという解決策と その学習方法が提案された。

1986年 デビッド・ラメルハートらにより、多層パーセプトロンの考え方と誤差逆伝播法と呼ばれる学習方法が提案されました。
誤差逆伝播法とはニューラルネットワークのパラメータを機械学習させる手法です。

多層パーセプトロンとは単純パーセプトロンを直列に二つ重ねることで、多層化したモデルです。
言い換えると、入力層・出力層の他に隠れ層(中間層)と呼ばれるニューロンの層が存在します。

この多層パーセプトロンは単純パーセプトロンが出来なかった、線形分離不可能な問題に対しても表現可能でした。
そればかりか、任意の連続関数が近似可能であることが示されます。

ディープラーニング

隠れ層をさらに増やした形式ニューロンモデルでの学習をディープラーニングと呼びます。
ディープラーニングと呼ばれるニューロンの深さは明確な定義はありませんが、五層以上のモデルがそう呼ばれることが多いです。

入力層、隠れ層、出力層の三層からなる多層パーセプトロンでは任意の連続関数が近似可能であると説明しました。
それは、隠れ層を増やして四層からなる多層パーセプトロンも三層の多層パーセプトロンで近似できるということでもあります。
なのでニューロンの層を深くすることは無意味に考える人も多かったようです。
しかし、深層化することによって表現力は指数的に上昇することが知られています。

2012年、物体の認識率を競うILSVRCというコンペティションでディープラーニングを用いた手法が二位以下を圧倒的な差で引き離し優勝します。
70%~75%程で均衡していた認識率は、この2012年の大会以降様々なディープラーニングの手法により2015年には96.5%まで改善されます。
人間の認識率は95%程であることを考えると、画像認識の分野では人工知能が人間を上回ったといえそうです。

このようなディープラーニングのブレイクスルーが発端となり、様々な分野でディープラーニングが利用されることとなります。

まとめ