欲求段階説と強化学習
マズローの欲求段階説 (Maslow's hierarchy of needs) を強化学習の視点から検討してみる。
注意:この日記を信じて機械学習や心理学などの理論を誤解したとしても責任はとれません。ポエムなので。
1. 生理的欲求
環境が返している報酬はこれ。immediate rewardで教師あり学習してもそれなりになりそうということ。
2. 安全欲求
どうやら,価値関数を学習しはじめたようだ。Bellman equationを満たそうとする試みがこれだ。
3. 社会欲求
環境がmulti-agentになったぞ。そうだ,環境の状態遷移は「他者」の行動にも依存している。
4. 承認欲求
さらにcommunicationを学習に使うようになった。他者の承認と比べて自己承認は難しく,振動などしがち。
(6. 自己超越欲求)
どうみても発散です。本当にありがとうございました。
まとめ
「下位の欲求の方から満たされる」という主張は学習の難易度でわりと説明ついてしまわないか。「欠乏欲求を十分に満たした経験のある者は」といった主張とも整合的だ。