CarRacing
openAi gym CarRacing 훈련 중간결과
2019. 10. 20. 01:18
- 훈련 environment : CarRacing-v1 (https://github.com/NotAnyMike/gym)
https://notanymike.github.io/Solving-CarRacing/
위 링크를 참고하여 제작했습니다.
Proximal Policy Optimization (줄여서 PPO) 알고리즘을 사용하여 훈련하였습니다.
timestep 100만회 colab에서 훈련시켰고, 어느 정도 쓸만한 결과가 나왔습니다!
이렇게 좋은 모습들을 보이기도 하는 반면,
어디서 막혔는지;;; 가끔 보면 이상한 장면들도 나오곤 합니다.
너무 굴곡이 깊거나 하면 그냥 그대로 탈선해서 돌아오려고 하지도 않는 모습을 보이기도 하고,
????????
이해할수도 없이 그냥 멈춰있기도 하고;;;
갑자기 Agent가 술마셨는지 시작하자마자 어기적대면서 그대로 풀로 들어가서 주차하기도 하고;;;
한 천만번 정도는 돌린 다음에 하면 거의 완벽하게 되지 않을까 싶습니다.
'인공지능 > 실습 자료' 카테고리의 다른 글
Q-learning w/ e-greedy policy (FrozenLake / Taxi) 코드 (0) | 2019.05.13 |
---|