ことはうれしいことになっています。数年前、グーグルはニューラルネットワークの夢が悪夢のものであることを示しましたが、最近は、テキストのみを作成するために、人間のそれに区別がつかないゲームキャラクターの動きを提供するために利用されていると見ました。説明、自己運転車のビジョンを提供するため、そしてそれ以上。
これをうまくやることができ、時には人間よりも優れていることができることは最近の開発です。光学的写真を生産することはわずか数ヶ月です。だから、まさにこれはどのようにして来ましたか?
パーセプトロン:40代、50年代、60代
パーセプトロン
私たちは20世紀半ばに始まります。当時の1つの顕著なタイプのニューラルネットワークは、ペルセプトロンと呼ばれる合成ニューロンを利用して生物学的脳内のニューロンを模倣しようとした。私たちはすでにここではAl Williamsによって一連の記事で詳細に覆われていますが、簡単には図のように見えるように見えます。
入力値、重み、およびバイアスが与えられると、それは0または1のいずれかの出力を作成します。しかし、ALの記事で包括的な理由で、XORの入り口のためにあなたはより多くのパーセプトロンの層を要求します。
「パーセプトロン」と呼ばれる周知の1969年の紙で、MinskyとPapertは、ペレプトロンが特定の問題に対して好ましいサービスを提供できなかったさまざまな条件を指摘しました。しかしながら、それらが説明した条件は、単一層のパーセプトロンの利用のみにのみ使用される。その時点で理解され、紙の中でも議論さえ、隠れ層と呼ばれる入力と出力との間にはるかに多くの層のペルセプトロンを追加することによって、XORを含むそれらの問題の数々が解決される可能性がある。
この問題についてのこの方法にもかかわらず、彼らの論文は多数の研究者を落胆させ、そしてニューラルネットワーク研究研究は10年間の背景に消えた。
バックプロパギー飼料とシグモイドニューロン:80年代
1986年にニューラルネットワークは、David Rummelhart、Geoffrey HintonとR.J。ウィリアムズその論文では、単一層パーセプトロンネットワークについて話す問題を扱った問題を扱った多数の実験の結果を発表し、多数の研究者が行動に戻る。
また、Hintonによると、今日のニューラルネットワークの分野での必須の図によれば、Rummelhartはニューラルネットワークを訓練するための効果的なアルゴリズムを再発明しました。それは、出力から入力への伝播を伝播され、デルタルールと呼ばれるものを利用したすべての重みの値を設定します。
完全にリンクされたニューラルネットワークとシグモイド
上記のPerceptron図に示されている0または1に出力を設定するための計算のセットは、ニューロンの起動関数と呼ばれます。しかし、Rummelhartのアルゴリズムでは、活性化機能は派生物が存在するものでなければならず、そしてそれらがシグモイド関数を利用するように選択されたものでなければならない(図を参照)。
そのため、今日の数多くのネットワークでは、出力が直線状に置き換えられ、その出力が直線状に置き換えられたニューロンのペルセプトロンタイプでした。しかしながら、多層パーセプトロン(MLP)という用語は、今日ではなく、上述したパーセプトロンを含むが、このセクションで話しています。うめき声、私たちは知っています。
また、プログラミングを容易にするために、バイアスは通常、典型的には1の値とそれ自体の重みと共にそれ自体のニューロンに行われた。その方法はその重み、したがってその値が他のすべての重みと共に訓練されるかもしれません。
そして、80年代後半までに、ニューラルネットワークは彼らの今では馴染みのある形をしていて、それらを訓練するための効果的なアルゴリズムが存在しました。
畳み込みとプール
1979年にNeocognitronと呼ばれるニューラルネットワークは畳み込み層の概念を導入し、1989年には、バックプロパギー化アルゴリズムはそれらの畳み込み層を訓練するようになっていました。
畳み込みニューラルネットワークとプール
畳み込み層はどのようなものですか?上記のネットワークでは、各入力ニューロンはすべての隠れたニューロンへの接続を持っています。そのようなレイヤーは完全にリンクされたレイヤーと呼ばれます。しかし、畳み込み層を使用すると、畳み込み層の各ニューロンは入力ニューロンのサブセットのみにリンクします。そしてそれらのサブセットは通常水平方向と垂直方向の両方に重なり合う。図中、畳み込み層内の各ニューロンは、明確にするために色分けされた3×3行列の入力ニューロンに連結され、それらの行列は1だけ重なっている。
この2Dアレンジメントは、画像の機能を発見しようとしているときに多大な取引を支援しますが、それらの利用は画像に限られません。 Pictureの特徴は、tの文字の異なる部分のように、2Dスペースのピクセルを占領します。彼の図。畳み込みニューロンのうちの1つが、上の短い水平方向の関数に加えて、中央の垂直関数の3×3の入力ニューロンの3×3サブセットにリンクされていることがわかります。正しい。さまざまな画像を訓練するとき、そのようなニューロンが最も強い機能を終了するように訓練されるかもしれません。
しかし、その関数は異常事件であり得るが、ニューラルネットワークが遭遇するほとんどの写真ではよく適合していないかもしれません。このような異常事件専用のニューロンを持つことは、オーバーフィットと呼ばれます。 1つのサービスはプールレイヤーを追加することです(図を参照)。プール層は1つのニューロンにいくつかのニューロンを一緒にプールします。我々の図において、畳み込み層内の各2×2行列は、プール層内の一態様によって表される。しかし、プール要素にはどのような値がありますか?
この例では、そのプーリング要素に対応する畳み込み層内の4つのニューロンのうち、それらの2つは、上部を横切って白い垂直セグメントの特徴を発見しました。しかし、それらのうちの1人はこの機能をはるかに頻繁に遭遇します。人が垂直部と火災に遭遇したとき、それは他よりも高い値を持ちます。そのため、対応するプール要素にその高い値を入れます。これは最大プールと呼ばれます。4つの値の最大値の最大値を取ります。
プール層は、情報を失うことなくネットワークを流れるデータのサイズも減少するので、計算を高速化します。最大プールは1992年に導入され、多数のニューラルネットワークの成功の大部分がありました。
深部
深いニューラルネットワークとrelu
深いニューラルネットワークは、多数の層を持つものです。私たち自身が彼の最近のニューラルネットワーキング記事を指摘したように、私たちの白い垂直セグメントと同じように、単純な機能を発見するための入力に近い層を深く指摘することができますが、より深い層はこれらの機能をよりもっと複雑に組み合わせるでしょう。物体全体を表すニューロンに到着するまで、図形。この例では、車の写真を表示するとき、車の機能に一致するニューロンは、最後に「車」の出力ニューロンが私たちがそれを車に見せた99.2%の信頼を吐き出す。
多くの進歩は、深いニューラルネットワークの現在の成功に貢献しています。それらのいくつかは次のとおりです。
SIGMOIDへの代替アクティベーション機能として、RELU(整流線形単位)の2010年から始まる導入。 RELUの詳細については図を参照してください。 reluusの利用はかなりスピードアップトレーニングを利用しました。他の問題を許可しないように、あなたがするはるかに多くのトレーニングをして、あなたが得る結果が良くなります。トレーニングをスピードアップすることで、もっと行うことができます。
GPUの利用(グラフィック処理単位)。 2004年から2006年にニューラルネットワークを畳み込むために使用されているため、GPUはニューロン発射値に重量値を掛けるときに含まれる行列乗算を行うようにしました。これはトレーニングを高速化します。
畳み込みニューラルネットワークやその他の方法を利用して、あなたが深くなるにつれて接続数を減らす。繰り返しますが、これもトレーニングを高速化します。
数十と多数の無数のデータ項目を持つ大きなトレーニングデータセットの可用性。とりわけ、これは過剰充填(上記で論じた)を助けます。
Inception V3アーキテクチャ
ディープドリームヘキサコプター
ここに示されているこれらの深いニューラルネットワークがどの程度複雑になるかという概念をいくつか提供するために、ここに右に示されているGoogleのInception V3ニューラルネットワークであるTensorflowフレームワークで表示されます。これの最初のバージョンは、GoogleのPsychedelic Deep Dreamingに責任があるものでした。あなたがダイアグラムの凡例を見ると、ニューラルネットワークの成功にかなりの貢献をしたいくつかの新しいものに加えて、私たちが議論したことがあることがいくつかわかります。
ここで示す例は、背景の木々で飛行中のヘキサコプターの写真として始まりました。それはその後、ここに示された写真を作成したDeep Dream Generatorのウェブサイトに提出されました。興味深いことに、それはプロペラに鳥と交換しました。
2011年までに、最大プールを持つ畳み込みニューラルネットワーク、そしてGPU上での実行は、98.98%の認識率を持つWebトラフィック指標に関する人間の視覚的パターン認識を達成しました。
シーケンスの処理と作成 – LSTMS
長短期記憶(LSTM)ニューラルネットワークは、非常に効果的なタイプのリカレントニューラルネットワーク(RNN)です。それは1995年以来続いていますが、長年にわたり数多くの強化を受けました。これらは、音声認識の信じられないほどの開発、画像のキャプション、音声と音楽の作成などのネットワークです。上記のネットワークは、画像などの固定サイズのデータのパターンを見るのに最適であったが、LSTMSは一連のデータまたはデータのシーケンスを作成するためのパターン認識のためのものである。したがって、彼らは音声認識を行うか、文を作成します。
LSTMニューラルネットワークと例
th.EYは、一般に、異なる種類の層および数学的操作を含むセルとして示されている。ダイアグラムでは、セルはそれ自体に戻り、したがってrecurrent Neuralネットワークに指していることに注意してください。これが、入力が到着すると、セルは出力を作成しますが、次のときに入力された情報も到着します。それを描いた別の方法は、正確な同じセルを示しているが異なる時点では、それらの間のデータの流れを示すいくつかのセルは本当に同じセルであり、データストリーミングをそれに戻す。この図では、この例は、エンコーダセルを一度に1つずつ一連の単語に与えるもので、最終的に「思考ベクトル」に進むという1つです。そのベクトルは、適切な応答を出力するデコーダセルを一度に1ワードに供給する。例はGoogleの賢明な返信機能です。
LSTMSは、静的な写真を分析するために利用することができ、そして私達がこれまでに見ている他の種類のネットワークを超える利点を有する。ビーチボールを含む静的な絵を見ている場合は、ビーチについてのビデオのフレームのほんの1フレームとして絵を見ている場合は、バスケットボールではなくビーチボールであることをお勧めします。パーティ。 LSTMは、ビーチボールの現在のフレームと同じくらいリードするビーチのお祝いのすべてのフレームを見て、それが以前にボールの種類についての評価をしていることを利用しています。
Gansで写真を生成します
生成敵対ネットワーク
おそらく、気まぐれな結果を提供する最近のニューラルネットワーク設計は、2014年に作成された総敵対的なネットワーク(Gans)を互いに競合しています。訓練されたデータに似ています。この発電機ネットワークは畳み込みニューラルネットワークです。他のネットワークは識別器と呼ばれ、画像が本物であるか生成されたかどうかを判断するように訓練されています。ジェネレータは弁別器をトリックするのが良くなり、弁別器はだまされていないことが良くなります。この敵対的な競争は、発電機を持っているよりも良い結果を生み出します。
スタックガンの鳥
2016年後半に、1つのグループが2つの積み重ねられたGANを利用することによってこれよりもさらに多く改善されました。優先画像のテキスト記述を提供した場合、ステージI GaNは低解像度の画像を欠けています(例えば、鳥の上のくちばしと目)。この絵とテキストの説明は次に、欠けている詳細を追加することを含む、さらに写真を強化し、より高い解像度の写真現実的な画像をもたらすステージII GaNに渡されます。
結論
そして、毎週明らかにされたはるかに多くの厄介な結果がある。ニューラルネットワーク研究研究は、科学的研究のように、それが追いつくのが難しくなっているということです。私がカバーしなかった他の魅力的な発展を知っているなら、以下のコメントで理解してください。