Update 2025-01-02-CH 1. Introduction.md

choisunmi00 · Jan 2, 2025 · abd9318 · abd9318
1 parent 168d292
commit abd9318
Showing 1 changed file with 1 addition and 1 deletion.
diff --git a/_posts/2025-01-02-CH 1. Introduction.md b/_posts/2025-01-02-CH 1. Introduction.md
@@ -62,7 +62,7 @@ math: true
         ⟶ 탐욕적 선택 이후 결정될 상태의 가치를 선택 이전의 상태에 보강(backup)  
         ⟹ 가치 함수를 이용하는 방법은 진화적 방법과 달리 개별적인 상태들을 평가
     - 갱신 규칙: 시간차 학습   
-    - $$V(S_{t})$$로 표현되는 $$S_{t}$$ 추정값의 갱신: $$V(S_{t})  \leftarrow  V(S_{t}) + \alpha \left [V(S_{t+1}) - V(S_{t})  \right ]$$
+    - $$V(S_{t})$$로 표현되는 $$S_{t}$$ 추정값의 갱신: $$V(S_{t})  \leftarrow  V(S_{t}) + \alpha \left [V(S_{t+1}) - V(S_{t})  \right ]$$  
         $$S_{t}$$: 탐욕적 선택 이전의 상태, $$S_{t+1}$$: 탐욕적 선택 이후의 상태, $$\alpha$$: 시간 간격 파라미터(step-size parameter) 
     - $$\alpha$$ ↓ ⟶ 표의 확률값이 참값으로 수렴  
     - 강화학습의 핵심 특성: