Skip to content

Latest commit

 

History

History
237 lines (145 loc) · 8.68 KB

強化學習框架-問題.md

File metadata and controls

237 lines (145 loc) · 8.68 KB

強化學習框架-問題

Agenda

Note

設置-回顧

  • Agent通過不斷的學習跟遇到錯誤,學習如何在環境中完成各項動作並最大化獎勵

  • Agent, 環境, 動作, 獎勵 - 整合在一個框架中。

470

  • 學習過程。
    • 環境更新狀態給Agent
    • Agent收到狀態,更新動作給環境。
    • 環境收到動作,更新狀態跟獎勵給Agent。
    • Agent收到狀態跟獎勵,更新動作給環境。

473

471

472

  • 目標: 最大化累積獎勵。

474

階段性任務與連續性任務

  • 階段性任務 - 具有清晰結束點
    • ex. 玩遊戲過關,無人車的撞毀
    • 每次Agent結束其任務,開始下次任務時,都會掌握前生所學習到一些知識,透過不斷的重複任務來學習知識。

475

  • 連續性任務 - 不具有清晰結束點
    • ex. 金融市場的股票買入跟賣出。
    • 需要學習選擇動作的最佳方式並不斷與環境互動。(此算法更複雜)

476

獎勵假設

  • 不同的任務,都有不同的目標。
    • 這些看起來似乎都是不同的目標,都有一個一致性的原則。

477

  • 獎勵假設:所有目標的一致性原則-最大化期望累積獎勵。

478

目標和獎勵

  • 以機器人走路為例子,來討論強化學習框架中,action, state跟reward應該是什麼

479

  • Action
    • 機器人在哪些關節點所使用的力量。

480

  • State
    • 所有關節點當前的位置跟速度。
    • 機器人所站的地面的量測結果。
      • 地面的平坦度,道路上是否有階梯。
    • 接觸傳感器數據。
      • 機器人是否在行走,或者跌倒。

481

  • 機器人必須根據當前的狀態,來規劃下一個動作。

  • Reward

    • walk fast(走的速度越快越好)。
    • walk forward(走的方向是往前,而不是方向亂變)。
    • walk smoothly(走的姿勢是否很怪異,關節點力量太大)。
    • walk for long as possible(走得越久越好,不要馬上跌倒)。

482

  • 機器人學走路的目標就是最大化累積獎勵。

獎勵累積

  • 強化學習框架的回顧:
    • 智能體如何通過與環境的互動實現目標。
    • 互動簡化成三種訊號。
    • 狀態訊號: 環境向智能體呈現狀況的方式。
    • 動作訊號: 智能體做出動作來影響環境。
    • 獎勵訊號: 環境針對智能體做出正確動作給予回饋。
    • 目標: 最大化累積獎勵。

483

  • 如何最大化累積獎勵 ?

    • 不能著重單個時間步 - 只會學習到最大初始化的獎勵動作。
      • ex. 機器人只會走得快,在短時間不跌倒,但會走不穩,走不對方向。
    • 動作有分成短期後果跟長期後果。
    • 智能體要考慮所有時間步的獎勵。
  • 獎勵:

    • 過去的獎勵是無法改變。
    • 只有未來的獎勵能受到控制。

484

  • 因為智能體無法完全肯定預測未來獎勵如何,他必須依賴預測或估算。

485

折扣回報

  • 當前獎勵權重跟未來獎勵權重該相同嗎?

  • 折扣回報: 更關心近期獎勵,而不是遙遠未來的獎勵。

486

  • 折扣率越小,越關心近期的獎勵,越大,在越關心未來的獎勵。
  • 使用折扣來避免無限未來產生的不良影響。

487

MDP

  • 目標:讓回收機器人如何考慮電量狀況下,完成收拾越多回收的垃圾。

  • Actions:

    • search: 房間中搜尋垃圾。
    • recharge: 回充電站充電。
    • wait: 保持不動,讓別人直接丟垃圾進去。

488

  • States:
    • high: 電量高。
    • low: 電量低。

489

  • 流程1:
    • 高電量時,機器人決定進行search,其結果有可能是70%機會仍保持高電量,30%機會變成低電量,因為積極搜尋所以給予4個獎勵。

490

  • 流程2:
    • 高電量時,機器人決定進行wait,其結果是100%機會仍保持高電量,因為等待所以只給予1個獎勵。

491

  • 流程3:
    • 低電量時,機器人決定進行wait,其結果是100%機會仍保持低電量,因為等待所以只給予1個獎勵。

492

  • 流程4:
    • 低電量時,機器人決定進行recharge,其結果是100%機會變回高電量,因為充電所以不給予獎勵。

493

  • 流程5:
    • 低電量時,機器人決定進行search,其結果是80%機會耗低電量,死在搜尋過程中,即管是積極搜尋,仍給予3個懲罰,因為20%機會會躲過這個風險,因為積極搜尋所以給予4個獎勵。。

494

  • 動態特性
    • 環境是如何根據智能體的動作來動態決定狀態跟獎勵。

496

497

  • MDP回顧
    • Markov Decision Process
    • 狀態集合,動作集合,獎勵集合,環境動態特性和折扣率所決定。
    • 一般折扣率的設定,都會接近1,而不是接近0,否則智能體只會著重近的未來,而非長期未來。
    • 智能體並不清楚獎勵集合跟環境動態特性,是透過互動學習來學習如何達到目標。

495

有限MDP

498

總結

  • 強化學習中智能體與環境的互動

499

  • 设置,重新经历

500

  • 阶段性任务与连续性任务

501

  • 奖励假设

502

  • 目标和奖励

503

  • 累积奖励

504

  • 折扣回报

505

  • MDPs和一步动态特性

506