openAi gym CarRacing 훈련 중간결과
- 훈련 environment : CarRacing-v1 (https://github.com/NotAnyMike/gym)
NotAnyMike/gym
An improvement of CarRacing-v0 from OpenAI Gym in order to make the environment complex enough for Hierarchical Reinforcement Learning - NotAnyMike/gym
github.com
https://notanymike.github.io/Solving-CarRacing/
Solving CarRacing with PPO - Mike.W
Solving Car Racing with Proximal Policy Optimisation I write this because I notice a significant lack of information regarding CarRacing environment. I also have expanded the environment to welcome more complex scenarios (see more). My intention is to publ
notanymike.github.io
위 링크를 참고하여 제작했습니다.
Proximal Policy Optimization (줄여서 PPO) 알고리즘을 사용하여 훈련하였습니다.
timestep 100만회 colab에서 훈련시켰고, 어느 정도 쓸만한 결과가 나왔습니다!
이렇게 좋은 모습들을 보이기도 하는 반면,
어디서 막혔는지;;; 가끔 보면 이상한 장면들도 나오곤 합니다.
너무 굴곡이 깊거나 하면 그냥 그대로 탈선해서 돌아오려고 하지도 않는 모습을 보이기도 하고,
????????
이해할수도 없이 그냥 멈춰있기도 하고;;;
갑자기 Agent가 술마셨는지 시작하자마자 어기적대면서 그대로 풀로 들어가서 주차하기도 하고;;;
한 천만번 정도는 돌린 다음에 하면 거의 완벽하게 되지 않을까 싶습니다.