RL01 강화학습의 이해
CODE | 강화학습의 이해 (Q-Table / FrozenLake)
https://colab.research.google.com/drive/10IeKARRk8Vp1Yxo09NlHSb6M0-OYxHiI?usp=sharing

DOC | Frozen Lake
https://gymnasium.farama.org/environments/toy_text/frozen_lake/

RL02 강화학습의 활용
CODE | 강화학습의 활용 (DQN / CartPole).ipynb
https://colab.research.google.com/drive/1YTJEFfIM7wbEOy5RHuVOMtlTLu8LXsVY?usp=sharing

Nature / DQL Reinforcement Learning (요약 번역본 with GPT4)
https://docs.google.com/document/d/1G74KaM2LKI6sR148CVxcIOTsOm-Y1y4OIbHwBFKIjRo/edit?usp=sharing

DRL 심층강화학습 케이스 스터디
RL | 물류운송장비 경로최적화
https://drive.google.com/file/d/1jMRElNMZnow2FCwmtbAEnIj7kpWxUDaW/view?usp=share_link

전투 시뮬레이션 심층강화학습 성능 비교
오늘 3분 리뷰는 스웨덴 국방 연구소의 바작, 파르자, 리누스 공저
‘전투 시뮬레이션에서 심층강화학습 모델별 성능 비교’


이번 논문의 주요 용어 2가지
- 심층 강화 학습 (DRL, deep reinforcement learning)
- 컴퓨터 생성 전투 자원 (CGF, computer generated forces)
인공지능 산업계 및 학계에서 널리 연구되는 DRL 모델 (알고리즘)
- DQL (Deep Q-Learning)
- A3C (Asynchronous Advantage Actor-Critic)
딥러닝이 CGF 개발에 기여할 수 있는 부분
- 효율성 Efficiency 증대 (개발 시간 단축)
- 현실감 Realism 부여 (다양한 전략 및 전술 적용 가능)
- 복잡성 Complexity 관리 (사람의 한계를 넘는 수준의 변수 추가 가능)
실험에 사용된 세 가지 DRL 모델
- DQL
- A3C-FF
- A3C-LSTM
실험에서 DRL 모델에게 주어진 네 가지 임무
- 랑데뷰
- 장애물 회피 랑데뷰
- 중요 인사 (HVI) 보호
- 경계 유지 이동
실험 환경 설정
- 뉴럴넷 구성 (입력층 – 은닉층 – 출력층)
- 하이퍼파라미터 (표)
- 보상 함수 (임무마다 차이 존재)
- 성능 평가 지표 (리워드 추이 및 누적량)
실험 결과 분석 기준
DRL 모델 성능 평가에서 중요한 점 두 가지
1 임무 달성 효율성 (시간, 비용 대비 보상의 양)
2 학습 결과의 일반화 가능성 (학습된 모델의 활용성, 예측의 일관성)
분석 결과
- 랑데뷰: A3C 우수, DQL은 절반 수준
- 장애물 회피 랑데뷰: A3C LSTM 우수, DQL은 기대 이하
- 중요 인사 보호: A3C LSTM 탁월
- 경계 유지 이동: A3C FF 조기 성과, 장기적으론 A3C 모두 우수, DQL은 기대 이하
- 일반화 성능: A3C LSTM이 가장 높은 가능성, DQL은 저조
실험의 결론
- A3C LSTM이 네 가지 임무 모두 성공적으로 학습
- 강화학습 연습에서 널리 사용되는 DQL의 성과가 저조한 이유는 학습 시간 부족으로 판단
- 실험 결과, CGF 개발에 강화학습 등 자기학습 모델 활용 실익 존재
- 무인 전투 체계에서 강화학습된 에이전트가 사람의 개입 또는 사전 정의된 코드 없이
- 임무 수행 가능성이 있음을 시사하는 것
2020 Alpha Dogfight Winner: Heron Systems
Deep Reinforcement Learning for Robotic
Reinforcement Learning With Super Mario
https://medium.com/geekculture/a-simple-guide-to-reinforcement-learning-with-the-super-mario-bros-environment-495a13974a54
끝 | 감사합니다. 이 포스트는 지속적으로 업데이트되고 있습니다.