欲求段階説と強化学習

マズローの欲求段階説 (Maslow's hierarchy of needs) を強化学習の視点から検討してみる。

注意：この日記を信じて機械学習や心理学などの理論を誤解したとしても責任はとれません。ポエムなので。

環境が返している報酬はこれ。immediate rewardで教師あり学習してもそれなりになりそうということ。

どうやら，価値関数を学習しはじめたようだ。Bellman equationを満たそうとする試みがこれだ。

環境がmulti-agentになったぞ。そうだ，環境の状態遷移は「他者」の行動にも依存している。

さらにcommunicationを学習に使うようになった。他者の承認と比べて自己承認は難しく，振動などしがち。

学習を助けるために導入されたはずの正則化が煩悩となる。個性と言えば聞こえは良いが，もとの環境にfine tuneできてないだけでは。

どうみても発散です。本当にありがとうございました。

「下位の欲求の方から満たされる」という主張は学習の難易度でわりと説明ついてしまわないか。「欠乏欲求を十分に満たした経験のある者は」といった主張とも整合的だ。