CLAI | 강화학습 개론과 실습

RL01 강화학습의 이해

CODE | 강화학습의 이해 (Q-Table / FrozenLake)
https://colab.research.google.com/drive/10IeKARRk8Vp1Yxo09NlHSb6M0-OYxHiI?usp=sharing

강화학습의 이해 (Q-Table / FrozenLake)

DOC | Frozen Lake
https://gymnasium.farama.org/environments/toy_text/frozen_lake/

GYM Doc | Frozen Lake

RL02 강화학습의 활용

CODE | 강화학습의 활용 (DQN / CartPole).ipynb
https://colab.research.google.com/drive/1YTJEFfIM7wbEOy5RHuVOMtlTLu8LXsVY?usp=sharing

강화학습의 활용 (DQN / CartPole).ipynb

Nature / DQL Reinforcement Learning (요약 번역본 with GPT4)
https://docs.google.com/document/d/1G74KaM2LKI6sR148CVxcIOTsOm-Y1y4OIbHwBFKIjRo/edit?usp=sharing

Nature / DQL Reinforcement Learning 요약 번역본

DRL 심층강화학습 케이스 스터디

RL | 물류운송장비 경로최적화
https://drive.google.com/file/d/1jMRElNMZnow2FCwmtbAEnIj7kpWxUDaW/view?usp=share_link

DRL 심층강화학습 케이스 스터디

전투 시뮬레이션 심층강화학습 성능 비교

오늘 3분 리뷰는 스웨덴 국방 연구소의 바작, 파르자, 리누스 공저
‘전투 시뮬레이션에서 심층강화학습 모델별 성능 비교’

전투 시뮬레이션에서 심층강화학습 모델별 성능 비교 1
전투 시뮬레이션에서 심층강화학습 모델별 성능 비교 2

이번 논문의 주요 용어 2가지

  1. 심층 강화 학습 (DRL, deep reinforcement learning)
  2. 컴퓨터 생성 전투 자원 (CGF, computer generated forces)


인공지능 산업계 및 학계에서 널리 연구되는 DRL 모델 (알고리즘)

  • DQL (Deep Q-Learning)
  • A3C (Asynchronous Advantage Actor-Critic)

딥러닝이 CGF 개발에 기여할 수 있는 부분

  1. 효율성 Efficiency 증대 (개발 시간 단축)
  2. 현실감 Realism 부여 (다양한 전략 및 전술 적용 가능)
  3. 복잡성 Complexity 관리 (사람의 한계를 넘는 수준의 변수 추가 가능)


실험에 사용된 세 가지 DRL 모델

  • DQL
  • A3C-FF
  • A3C-LSTM

실험에서 DRL 모델에게 주어진 네 가지 임무

  1. 랑데뷰
  2. 장애물 회피 랑데뷰
  3. 중요 인사 (HVI) 보호
  4. 경계 유지 이동

실험 환경 설정

  • 뉴럴넷 구성 (입력층 – 은닉층 – 출력층)
  • 하이퍼파라미터 (표)
  • 보상 함수 (임무마다 차이 존재)
  • 성능 평가 지표 (리워드 추이 및 누적량)


실험 결과 분석 기준
DRL 모델 성능 평가에서 중요한 점 두 가지
1 임무 달성 효율성 (시간, 비용 대비 보상의 양)
2 학습 결과의 일반화 가능성 (학습된 모델의 활용성, 예측의 일관성)

분석 결과

  • 랑데뷰: A3C 우수, DQL은 절반 수준
  • 장애물 회피 랑데뷰: A3C LSTM 우수, DQL은 기대 이하
  • 중요 인사 보호: A3C LSTM 탁월
  • 경계 유지 이동: A3C FF 조기 성과, 장기적으론 A3C 모두 우수, DQL은 기대 이하
  • 일반화 성능: A3C LSTM이 가장 높은 가능성, DQL은 저조

실험의 결론

  • A3C LSTM이 네 가지 임무 모두 성공적으로 학습
  • 강화학습 연습에서 널리 사용되는 DQL의 성과가 저조한 이유는 학습 시간 부족으로 판단
  • 실험 결과, CGF 개발에 강화학습 등 자기학습 모델 활용 실익 존재
  • 무인 전투 체계에서 강화학습된 에이전트가 사람의 개입 또는 사전 정의된 코드 없이
  • 임무 수행 가능성이 있음을 시사하는 것

2020 Alpha Dogfight Winner: Heron Systems

Deep Reinforcement Learning for Robotic

Reinforcement Learning With Super Mario
https://medium.com/geekculture/a-simple-guide-to-reinforcement-learning-with-the-super-mario-bros-environment-495a13974a54


끝 | 감사합니다. 이 포스트는 지속적으로 업데이트되고 있습니다.

Leave a Reply