강화학습이란?

RL

강화학습 기초

Markov Decision Process(MDP)

  1. 상태: 에이전트가 관찰 가능한 상태의 집합

  2. 행동: 에이전트가 상태에서 할 수 있는 행동의 집합

  3. 보상함수: 환경이 에이전트에게 주는 정보. 에이전트가 학습할 수 있는 정보

  4. 상태변환 확률: 에이전트가 어떠한 상태 s에서 행동 a를 해서 다음 상태 s’에 도달할 확률

  5. 감가율: 받는 보상정보를 수학적으로 표현하기 위함

Value Function

Policy

Bellman Expectation Equation

Q-Function

Bellman Optimality Equation

Dynamic Programming

정책 이터레이션: 정책 평가와 정책 발전

가치 이터레이션

Q-Learning

Monte-carlo Approximation

Temporal Difference Prediction

SARSA

Q-Learning

정리

TAVE 6기가 8월부터 시작되었다. 머신러닝을 공부하려고 들어왔지만, 강화학습이 너무 재미있어보여서 강화학습스터디에 참여하게 되었다. 첫 스터디는 조장님이 쭉 설명을 해주셨다. 수식도 많고 헷갈리는 부분이 많았지만 반복해서 보다보니 이해가 잘 되었다.

같은 팀원들이 관심도 많고 잘하는 사람들이 많아 더 열심히 해야될것 같다.

우리 스터디 블로그이다.: TAVE 6기 강화학습 스터디 블로그