[강화학습 단기집중 과정] 1주차 주간 과제

JavaScript isn't enabled in your browser, so this file can't be opened. Enable and reload.

Email *

제출자명 *

★회원가입/신청하실 때 작성한 이름을 작성해주세요. 띄어쓰기가 포함되거나 오타가 있으면 제출 처리에 오류가 발생할 수 있습니다.★

참여 월/요일/시간대 (ex. 10월/화요/10시) *

온라인 모임이 없는 스터디는 스터디가 시작한 월만 적어주세요! (ex. 11월)

1) 강화학습이란 무엇인가요? *

2) 탐험과 활용 문제란 무엇인가요? *

3) 정책이란 무엇인가요? *

4) 보상 신호란 무엇인가요? *

5) 가치 함수란 무엇인가요? *

6) 모델이란 무엇인가요? *

2일차 학습내용

7) 다중 선택 문제(bandits problem)이란 무엇인가요? *

8) 신뢰 상한 행동 선택(Upper Confidence Bound, UCB) 알고리즘의 공식 *

9) 맥락적 다중 선택과 강화학습의 차이점에 대해서 설명해주세요. (p50 참조) *

10) Bellman Expectation Equation 암기: v(s) (식 3.14) *

11) Bellman Optimality Equation 암기: v*(s) (식 3.19) *

12) Bellman Optimality Equation 암기: q*(s, a) (식 3.20) *

13) Policy Evaluation에서 v(s) 업데이트 식은 Bellman Expectation Equation인가요? Bellman Optimality Equation 인가요? *

14) Policy Improvement에서 pi(a|s) 업데이트 식 암기해서 적어주세요: (식 4.9) *

15) Value Iteration v(s) 업데이트 식은 Bellman Expectation Equation인가요? Bellman Optimality Equation 인가요? *

16) 일반화된 정책 반복(Generalized Policy Iteration, GPI)란 무엇인가요? *

17) 5일차 튜토리얼을 따라한 코드 Colab 공유 링크 *

Google Colab Notebook 공유 링크 복사하는 법: https://bit.ly/2LbmtJ4

이번주에 학습하시면서 추가로 궁금한 내용이 있으면 적어주세요 *

A copy of your responses will be emailed to the address you provided.

Submit

Clear form

Never submit passwords through Google Forms.

reCAPTCHA

This form was created inside of Studypie. Report Abuse