連鎖律の適用、およびいくつかの再帰

2
warm_fish 2020-10-02 22:50.

微分可能関数を検討する $L^1(x,\theta^1),L^2(x^2,\theta^2),...,L^l(x^l,\theta^l)$、ここですべて $x_k,\theta^k$ は実数ベクトルです $k=1,...,l$。また、定義する$\theta=(\theta^1,...,\theta^l)$

複合関数を定義する $f(x,\theta)=x^{l+1}$ を行うことによって再帰的に $x^k= L^{k-1}(x^{k-1},\theta^{k-1})$$x^1=x$

計算 $J_\theta f$、のヤコビアン $f$ に関して $\theta$

ある文脈では、ニューラルネットワークの損失関数を最適化するために最急降下法を実装しようとしていますが、計算が正しければ、たとえば順伝播ではなく逆伝播を行う理由がわかりません。 。これが私の試みですが、何か間違いはありますか?

  1. 計算 $J f$:連鎖律を使用する: $$ Jf=JL^l(x^l,\theta^l)= \left ( J_{x^l}L^l\cdot J_{x,\theta^1,...,\theta^{l-1}}x^l \middle| J_{\theta^l}L^l\right )= \left ( J_{x^l}L^l\cdot J_{x,\theta^1,...,\theta^{l-1}}L^{l-1} \middle| J_{\theta^l}L^l\right )$$ したがって、私たちは書くことができます $Jf=J^l$、 どこ $J^l$ 次の再帰ルールによって与えられます。 $$J^k=\left ( J_{x^k}L^k\cdot J^{k-1}\middle| J_{\theta^k}L^k\right ), \quad J^1=J_{x,\theta^1}L^1$$

  2. 入手します $J_\theta f$:の最後の列を取得したい $Jf$、に関する導関数に対応する $\theta^1,...,\theta^l$。明らかに$$J_\theta f=\left ( J_{x^l}L^l\cdot J_{\theta^1,...,\theta^{l-1}}L^{l-1} \middle| J_{\theta^l}L^l\right )$$ したがって、 $J_\theta f=G^l$、 どこ: $$G^k=\left ( J_{x^k}L^k\cdot G^{k-1}\middle| J_{\theta^k}L^k\right ), \quad G^1=J_{\theta^1}L^1$$

3 answers

2
Khue 2020-10-12 00:07.

すべてのパラメーターに関する出力の勾配が、再帰的で順方向に計算できることを確認するのは簡単です(上記で示したように)。この手順は、フォワードモード微分と呼ばれます。一方、よく知られているバックプロパゲーションアルゴリズムは、逆モード微分の特殊なケースであり、これは非常にわかりにくいものです(そのため、その発明が高く評価されています)。

問題は、順方向モードの区別が単純な場合、なぜ人々は逆方向モードを使い続けるのかということです。

その答えは、リバースモードの計算効率にあります。実際、一般的な計算グラフの場合、入力の次元が出力の次元よりもはるかに大きい場合は、逆モードの方がはるかに効率的です(またはその逆)。これは、自動微分のよく知られた結果です(たとえば、Griewankによる「微分の逆モードを発明したのは誰か」を参照)。

機械学習では、いわゆるトレーニングタスクには、多数のパラメーターに関するスカラー値の目的関数の勾配が含まれることがよくあります。つまり、出力(1d)の次元は次元よりもはるかに小さいことがわかります。パラメータベクトル(および入力特徴の次元)の、したがって、この場合、逆モード微分ははるかに効率的です。

(バックプロパゲーションアルゴリズムを自分で導出してみてください。そうすると、損失の勾配の計算に多くの行列とベクトルの乗算が含まれることがわかります。これは、フォワードモードの多くの行列と行列の乗算よりもはるかに安価です。Iあなたはこれを自分で見ることができると信じていますが、さらに助けが必要な場合は私に知らせてください。)

3
paperskilltrees 2020-10-13 00:11.
  1. 「フォワードプロパゲーション」ではなく、なぜバックプロパゲーションなのか疑問に思いました。Khueは素晴らしい答えを出しましたが、それに追加することはあまりありません。彼が言ったように、自動微分は順方向モードまたは逆方向モードで行うことができます。自由パラメーターと出力の次元によっては、一方の方法で必要な算術演算が他方よりも少なくなる場合があります。それはこの答えでさらに説明されます

    用語に関しては、バックプロパゲーションは「エラーのバックプロパゲーション」の略で、ニューラルネットワークのコンテキストでのバックワードモード微分の名前です。エラーは関数の出力であり、その端からのみ伝播できるため、フォワードモード微分を「フォワード伝播」と呼ぶのは少し不適切です。

  2. あなたの派生は私には正しいように見えます。単に検証を求めているのか、独自の方法でバックプロパゲーションを導き出そうとしているのかはわかりませんが、行き詰まりました。後者の場合、あなたが見逃しているのはおそらくあなたの最後の行の正しい解釈です:

    $$G^k=\left ( J_{x^k}L^k\cdot G^{k-1}\middle| J_{\theta^k}L^k\right ), \quad G^1=J_{\theta^1}L^1.\tag{1}\label{eq1}$$

    この漸化式は確かに私たちに計算を開始するように促します $k=1,2,\dots$、なぜなら $G^1$ 知られていると $G^k$ 左側は $G^{k-1}$右側; その場合、計算は簡単です。

    ただし、これは、もう一方の端から開始できないことを意味するものではありません$k=l,l-1,\dots$。興味がないことを思い出してください$G^k$、しかしで $k$-の列 $G^l$。最後 ($l$th)の列 $G^l$ に依存しないため、すぐに利用できます $G^{l-1}$

    $$G^l=\left ( J_{x^l}L^l\cdot G^{l-1}\middle| J_{\theta^l}L^l\right ).$$

    ために $k=l-1$最後から2番目の列を取る必要があります。それ依存します$G^{l-1}$、しかし正確には、それはの最後の列に依存します $G^{l-1}$、これは、に依存しません$G^{l-2}$。したがって、次のように引き出すことができます。

    $$G^{l}=\left(J_{x^{l}}L^{l}\cdot J_{x^{l-1}}L^{l-1}\cdot G^{l-2}|J_{x^{l}}L^{l}\cdot J_{\theta^{l-1}}L^{l-1}|J_{\theta^{l}}L^{l}\right),$$ これは $$G^{l}=\left(J_{x^{l-1}}L^{l}\cdot G^{l-2}|J_{\theta^{l-1}}L^{l}|J_{\theta^{l}}L^{l}\right).$$

    この時点で、続行する方法が明確になっているはずです。

更新。上記の遷移では、最後から2番目の列は次のように計算されました。$J_{\theta^{l-1}}L^{l}=J_{x^{l}}L^{l}\cdot J_{\theta^{l-1}}L^{l-1}$。類推により、結果の列(最後から最初に移動)が次のように計算されることがわかります。 $$J_{\theta^{k-1}}L^{l}=J_{x^{k}}L^{l}\cdot J_{\theta^{k-1}}L^{k-1},\tag{2a}\label{eq3}$$

どこ $J_{x^{k}}L^{l}$ を通じて取得することができます $$J_{x^{k}}L^{l}=J_{x^{k+1}}L^{l}\cdot J_{x^{k}}L^{k}.\tag{2b}\label{eq4}$$

\ eqref {eq3}、\ eqref {eq4}の左側には $k-1$ そして $k$、右側には $k$$k+1$、および直接知ることができる用語。これで、リレーション\ eqref {eq3}、\ eqref {eq4}をから再帰的に使用できるようになりました。$k=l,l-1,\dots$。これはリバースモードADに対応します。

もちろん、以前の計算に頼ることなく、\ eqref {eq3}、\ eqref {eq4}を直接取得できます。 $G^k$立ち止まった場所が行き止まりではないことを示したかっただけです。あなたが最初からやり直すとしたら、あなたは

計算 $J_{\theta^{1}\dots\theta^{l}}f=\left(J_{\theta^{1}}f\mid\dots\mid J_{\theta^{l}}f\right)$

ここで、各列の完全な導関数に連鎖律を注意深く適用すると、列に共通の部分式があることに気付くでしょう。\ eqref {eq1}のように、列ごとに移動する代わりに、同じものを行列形式で定式化できると思いますが、そのような演習には意味がありません。

1
warm_fish 2020-10-13 05:07.

ですから、私が理解できる限り、後退微分は次のようになります。初期化後$D=I$

ために $k$ から $l$$1$

  1. セーブ $D\cdot J_{\theta^{k}}L^{k}$ なので $J_{\theta^{k}}f$
  2. $D=D\cdot J_{x^{k}}L^{k}$

これは、すべてのレイヤーのバックワードパスに実装されているアルゴリズムですか?

Related questions

MORE COOL STUFF

「水曜日」シーズン1の中心には大きなミステリーがあります

「水曜日」シーズン1の中心には大きなミステリーがあります

Netflixの「水曜日」は、典型的な10代のドラマ以上のものであり、実際、シーズン1にはその中心に大きなミステリーがあります.

ボディーランゲージの専門家は、州訪問中にカミラ・パーカー・ボウルズが輝くことを可能にした微妙なケイト・ミドルトンの動きを指摘しています

ボディーランゲージの専門家は、州訪問中にカミラ・パーカー・ボウルズが輝くことを可能にした微妙なケイト・ミドルトンの動きを指摘しています

ケイト・ミドルトンは、州の夕食会と州の訪問中にカミラ・パーカー・ボウルズからスポットライトを奪いたくなかった、と専門家は言う.

一部のファンがハリー・スタイルズとオリビア・ワイルドの「非常に友好的な」休憩が永続的であることを望んでいる理由

一部のファンがハリー・スタイルズとオリビア・ワイルドの「非常に友好的な」休憩が永続的であることを望んでいる理由

一部のファンが、オリビア・ワイルドが彼女とハリー・スタイルズとの間の「難しい」が「非常に友好的」な分割を恒久的にすることを望んでいる理由を見つけてください.

エリザベス女王の死後、ケイト・ミドルトンはまだ「非常に困難な時期」を過ごしている、と王室の専門家が明らかにする 

エリザベス女王の死後、ケイト・ミドルトンはまだ「非常に困難な時期」を過ごしている、と王室の専門家が明らかにする 

エリザベス女王の死後、ケイト・ミドルトンが舞台裏で「非常に困難な時期」を過ごしていたと伝えられている理由を調べてください.

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セント ヘレナ島のジェイコブズ ラダーは 699 段の真っ直ぐ上る階段で、頂上に到達すると証明書が発行されるほどの難易度です。

The Secrets of Airline Travel Quiz

The Secrets of Airline Travel Quiz

Air travel is far more than getting from point A to point B safely. How much do you know about the million little details that go into flying on airplanes?

Where in the World Are You? Take our GeoGuesser Quiz

Where in the World Are You? Take our GeoGuesser Quiz

The world is a huge place, yet some GeoGuessr players know locations in mere seconds. Are you one of GeoGuessr's gifted elite? Take our quiz to find out!

バイオニック読書はあなたをより速く読むことができますか?

バイオニック読書はあなたをより速く読むことができますか?

BionicReadingアプリの人気が爆発的に高まっています。しかし、それは本当にあなたを速読術にすることができますか?

Westworldの遊び方:Amazonエコーのない迷路

Westworldの遊び方:Amazonエコーのない迷路

Westworldの第2シーズンが終わり、次の1、2年は楽しいがやや混乱するシリーズでモーター機能が凍結するので、次に何をすべきかについて少し迷うかもしれません。ビンジウォッチングする別の番組を見つけますか?さらに多くのファン理論を読み直しますか?お気に入りの1990年代のオルタナティブロックソングの楽しいオールドタイムの​​ピアノカバーを書き始めますか?心配しないでください。長い待ち時間が始まる前に、Westworldのヒットをもう1つ得ることができます。

ジャネールモネイは彼女のプライドで周りをファックしませんでしたBETアワードを見てください

ジャネールモネイは彼女のプライドで周りをファックしませんでしたBETアワードを見てください

2018 BETアワードは、日曜日の夜にロサンゼルスで開催されました。プライド月の真ん中に軽くたたきます。見た目はいたるところに強かったが、ジャネール・モネイのように誰もそれをしなかった。

リットウッドで2000年代と2010年代の車を祝うために2038年に会いましょう

リットウッドで2000年代と2010年代の車を祝うために2038年に会いましょう

他の期間をテーマにした自動車展示会、特に1980年代と90年代の自動車ショーRadwoodの最近の成功に続いて、私は2000年代と2010年代の自動車文化を祝う自動車ショーであるLitwoodを立ち上げることにしました。私は今これについてディブを呼んでいます。

リチャードは堅実なシリコンバレーで彼の会社の将来のためにビットコインを裏返します

リチャードは堅実なシリコンバレーで彼の会社の将来のためにビットコインを裏返します

数週間前のシリコンバレーの第5シーズンのプレミアのレビューで、ショーはその高齢で問題を抱え続けていますが、才能のあるキャストとそのひねくれたユーモアのセンスを備えた頑丈な基盤からまだ機能していると主張しました。そして、シーズンの終わりに近づくにつれて、その点は持ちこたえてきました。

ケイト・ミドルトンとウィリアム王子は、彼らが子供たちと行っているスパイをテーマにした活動を共有しています

ケイト・ミドルトンとウィリアム王子は、彼らが子供たちと行っているスパイをテーマにした活動を共有しています

ケイト・ミドルトンとウィリアム王子は、子供向けのパズルの本の序文を書き、ジョージ王子、シャーロット王女、ルイ王子と一緒にテキストを読むと述べた.

事故で押しつぶされたスイカは、動物を喜ばせ水分補給するために野生生物保護団体に寄付されました

事故で押しつぶされたスイカは、動物を喜ばせ水分補給するために野生生物保護団体に寄付されました

Yak's Produce は、数十個のつぶれたメロンを野生動物のリハビリ専門家であるレスリー グリーンと彼女のルイジアナ州の救助施設で暮らす 42 匹の動物に寄付しました。

デミ・ロヴァートは、新しいミュージシャンのボーイフレンドと「幸せで健康的な関係」にあります: ソース

デミ・ロヴァートは、新しいミュージシャンのボーイフレンドと「幸せで健康的な関係」にあります: ソース

8 枚目のスタジオ アルバムのリリースに向けて準備を進めているデミ ロヴァートは、「スーパー グレート ガイ」と付き合っている、と情報筋は PEOPLE に確認しています。

Plathville の Kim と Olivia Plath が数年ぶりに言葉を交わすことへようこそ

Plathville の Kim と Olivia Plath が数年ぶりに言葉を交わすことへようこそ

イーサン プラスの誕生日のお祝いは、TLC のウェルカム トゥ プラスビルのシーズン 4 のフィナーレで、戦争中の母親のキム プラスと妻のオリビア プラスを結びつけました。

仕事の生産性を高める 8 つのシンプルなホーム オフィスのセットアップのアイデア

仕事の生産性を高める 8 つのシンプルなホーム オフィスのセットアップのアイデア

ホームオフィスのセットアップ術を極めよう!AppExert の開発者は、家族全員が一緒にいる場合でも、在宅勤務の技術を習得しています。祖父や曽祖父が共同家族で暮らしていた頃の記憶がよみがえりました。

2022 年、私たちのデジタル ライフはどこで終わり、「リアル ライフ」はどこから始まるのでしょうか?

20 年前のタイムトラベラーでさえ、日常生活におけるデジタルおよびインターネットベースのサービスの重要性に驚くことでしょう。MySpace、eBay、Napster などのプラットフォームは、高速化に焦点を合わせた世界がどのようなものになるかを示してくれました。

ニューロマーケティングの秘密科学

ニューロマーケティングの秘密科学

マーケティング担当者が人間の欲望を操作するために使用する、最先端の (気味が悪いと言う人もいます) メソッドを探ります。カートをいっぱいにして 3 桁の領収書を持って店を出る前に、ほんの数点の商品を買いに行ったことはありませんか? あなたは一人じゃない。

地理情報システムの日: GIS 開発者として学ぶべき最高の技術スタック

地理情報システムの日: GIS 開発者として学ぶべき最高の技術スタック

私たちが住んでいる世界を確実に理解するには、データが必要です。ただし、空間参照がない場合、このデータは地理的コンテキストがないと役に立たなくなる可能性があります。

Language