Skip to content

Commit

Permalink
Update 2025-01-02-CH 1. Introduction.md
Browse files Browse the repository at this point in the history
  • Loading branch information
choisunmi00 committed Jan 2, 2025
1 parent 168d292 commit abd9318
Showing 1 changed file with 1 addition and 1 deletion.
2 changes: 1 addition & 1 deletion _posts/2025-01-02-CH 1. Introduction.md
Original file line number Diff line number Diff line change
Expand Up @@ -62,7 +62,7 @@ math: true
⟶ 탐욕적 선택 이후 결정될 상태의 가치를 선택 이전의 상태에 보강(backup)
⟹ 가치 함수를 이용하는 방법은 진화적 방법과 달리 개별적인 상태들을 평가
- 갱신 규칙: 시간차 학습
- $$V(S_{t})$$로 표현되는 $$S_{t}$$ 추정값의 갱신: $$V(S_{t}) \leftarrow V(S_{t}) + \alpha \left [V(S_{t+1}) - V(S_{t}) \right ]$$
- $$V(S_{t})$$로 표현되는 $$S_{t}$$ 추정값의 갱신: $$V(S_{t}) \leftarrow V(S_{t}) + \alpha \left [V(S_{t+1}) - V(S_{t}) \right ]$$
$$S_{t}$$: 탐욕적 선택 이전의 상태, $$S_{t+1}$$: 탐욕적 선택 이후의 상태, $$\alpha$$: 시간 간격 파라미터(step-size parameter)
- $$\alpha$$ ↓ ⟶ 표의 확률값이 참값으로 수렴
- 강화학습의 핵심 특성:
Expand Down

0 comments on commit abd9318

Please sign in to comment.