活性化関数（Activation Functions）

12.6. 活性化関数（Activation Functions）#

import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns 
import pandas as pd 
from IPython.display import display, Markdown, Latex

活性化関数には様々種類があるので，代表的なものを列挙して紹介します．

12.6.1. Logistic Sigmoid (ロジスティック・シグモイド)#

まずは符号関数をそのまま滑らかにしたような関数として，ロジスティックシグモイド関数が有名です．

\[ \operatorname{sigmoid}(x; a) = \frac{1}{1+\operatorname{exp}(-ax)} \]

ただし，MLの文脈では\(a\)は重要ではないので，\(a=1\)として固定されます．（これを標準シグモイド関数と呼びます）よって：

\[ \operatorname{sigmoid}(x) = \frac{1}{1+\operatorname{exp}(-x)} \]

この関数は \((-\infty, \infty) \rightarrow(0, 1)\) の短調増加連続関数です．\(y=0, y=1\) を漸近線として持っていて，確率値のような値域なのでMLPでは確率を出したい場合に使われることもあります．

sigmoidの導関数：

\[\begin{split} \begin{aligned} \operatorname{sigmoid}^{\prime}(x) & =\left(\frac{1}{1+e^{-x}}\right)^{\prime} \\ & =\frac{e^{-x}}{\left(1+e^{-x}\right)^2} \\ & =\frac{1}{1+e^{-x}} \frac{e^{-x}}{1+e^{-x}} \\ & =\frac{1}{1+e^{-x}}\left(1-\frac{1}{1+e^{-x}}\right) \\ & =\operatorname{sigmoid}(x)(1-\operatorname{sigmoid}(x)) \\ \end{aligned} \end{split}\]

ただし微分の最大値が0.25であることに注意してください．（勾配消失が起きやすそうです）

sigmoid = lambda x: 1/(1+np.exp(-x))

sigmoid_prime = lambda x: sigmoid(x)*(1-sigmoid(x))

_images/ad09c6a316edac25a75b2dba560132a6589bd10417179a85f58448ac9f6c8354.png

12.6.2. \(\operatorname{tanh}\)（ハイパボリックタンジェント）#

パーセプトロンのページでは，sign関数の出力を{1,-1}として使っていましたが，これに相当する関数として\(\operatorname{tanh}\) があります．tanhはsigmoid関数に非常によく似た形になっている（取り得る範囲が0~1と-1~1の違い）ことがわかります．そのため，ニューラルネットワークの実装ではsigmoidの代わりにtanhを利用することもよくあります．

さて，tanhは双曲線関数と呼ばれているもので，これにはsinh（ハイパボリックサイン）,cosh（ハイパボリックコサイン）などの仲間がいます．活性化関数としてよく使われるのはtanhのみですが，それぞれ見ておきましょう．

\[\begin{split} \begin{aligned} \sinh x & =\frac{e^x-e^{-x}}{2} \\ \cosh x & =\frac{e^x+e^{-x}}{2} \\ \tanh x & =\frac{\sinh x}{\cosh x}=\frac{e^x-e^{-x}}{e^x+e^{-x}} \end{aligned} \end{split}\]

この関数は \((-\infty, \infty) \rightarrow(-1, 1)\) の短調増加連続関数です．\(y=-1, y=1\) を漸近線として持っていて，sigmoidとよく似たグラフになります．

tanhの導関数：

\[\begin{split} \begin{aligned} (\tanh x)^{\prime}=& \bigg( \frac{e^x-e^{-x}}{e^x+e^{-x}} \bigg)^{\prime}\\ &=\dfrac{(e^x+e^{-x})^2-(e^x-e^{-x})^2}{(e^x+e^{-x})^2}\\ &=\dfrac{4}{(e^x+e^{-x})^2} \\ &=\frac{1}{\operatorname{cosh} x} \qquad \because \cosh x=\frac{e^x+e^{-x}}{2}\\ \end{aligned} \end{split}\]

np.sinh
np.cosh 
np.tanh 

tanh_prime = lambda x: 1/np.cosh(x)**2

_images/ada0888deb355ed2cacc2ceb802001234cf2858d8d9594739deef29fd14ebeb9.png

12.6.3. ReLU（Rectified Linear Unit）/ランプ関数#

活性化関数として使う関数は，とりあえず非線形であればいい筈です．上の二つのように有界ではない活性化関数の一例としてReLU関数を紹介します．

ReLUはDeep Learningと呼ばれる手法が出てきてから用いられることが多くなった活性化関数で，中身は非常にシンプルです．

\[\begin{split} \begin{aligned} \operatorname{ReLU}(x)&=\operatorname{max}(x,0) \\ &=\begin{cases} 0, & x \leq 0 \\ x, & x>0 \\ \end{cases} \\ \end{aligned} \end{split}\]

また，これの導関数：

\[\begin{split} \operatorname{ReLU}^{\prime}(x)= \begin{cases}0, & x<0 \\ \text { NaN, } & x=0 \\ 1, & x>0\end{cases} \end{split}\]

この通り微分できない部分があるのですが，\(x=0\)はとりあえず正の数\(x<0\)に含めて微分値0としてしまいます．

# np.maxだと最大値を取ってしまうので注意
relu = lambda x: np.maximum(x,0).astype(x.dtype)

@np.vectorize
def relu_prime(x):
    if x <= 0:
        return 0
    return 1

_images/286a1e7b200db85df2a227ce4c145dd308f5db257268eb01205a98dac27dbeb6.png

12.6.4. SoftPlus#

ReLUは非線形ですが滑らかではない関数でした．そこでReLUを滑らかにしたような関数として，SoftPlusを紹介します．

\[ \operatorname{softplus}(x) = \log{(1+\operatorname{exp}(x))} \]

これの導関数：

\[ \begin{align}\begin{aligned} \begin{aligned}\\\begin{split}{\operatorname{softplus}(x)}^{\prime} &= {\log{(1+\operatorname{exp}(x))}}^{\prime} \\ &= \frac{1}{1+\operatorname{exp}(-x)} \\ &= \operatorname{sigmoid}(x) \\\end{split}\\\end{aligned} \end{aligned}\end{align} \]

softplus = lambda x: np.log(1. + np.exp(x))

softplus_prime = sigmoid

_images/7ab04226810cd7012c896f8490100080c5abdcf4b0db56ff6b7c046d105d8559.png

12.6.5. Softmax#

Softmaxはクラス分類やカテゴリカルデータの再構成がしたい時に利用する関数です．各成分は正の数であり，その合計は1になります．名前の通りsoftなargmax関数のような特性を持っていて（argmaxを滑らかな関数で近似している），微分可能関数です．

\[ \begin{align}\begin{aligned} \begin{aligned}\\\begin{split}\operatorname{softmax}(\mathbf{x})_i &= \frac{\operatorname{exp}({x}_i)}{\sum_{k=1}^{c}\operatorname{exp}({x}_k)} \\ &= \frac{\operatorname{exp}({x}_i)}{\operatorname{exp}({x}_1)+\operatorname{exp}({x}_2)+ \cdots \operatorname{exp}({x}_c)} \\ &(i=1,\cdots,c)\end{split}\\\end{aligned}\end{aligned}\end{align} \]

これまでの活性化関数がスカラーを受け取ってスカラーを返す関数だった（またはベクトルを受け取って全ての要素を独立に変換して返す関数だった）のに対し，Softmaxではベクトルを受け取ってベクトルを返すことを前提としています．

softmax関数は，「シグモイド関数を個用意し，それらの出力全体を正規化することで，和が必ず1になって，確率出力ができるようにした関数」と捉えることができる．

softmax 関数 (ソフトマックス関数) [活性化関数] |CVMLエキスパートガイド