[자동재생]
[선택 재생]
벽돌깨기 학습과정
단지 점수를 최대로 높이라는 명령 외엔 아무런 정보도 주지 않음
딥마인드는 '공' 이 뭔지 어떻게 막대기를 조종하는지도 모른다. 그냥 무작정 시작
1. 처음 10분 동안은 딥마인드가 막대기를 움직여서 공을 쳐보려고 하지만 컨트롤 능력이 떨어져서 헤맨다.
2. 120분 지나자 능숙한 플레이가 가능해진다.
3. 대단한 일이 240분째 발생한다.
터널을 파는게 고득점을 위한 효과적인 방법이란걸 딥마인드가 알게 되는 것
게임을 반복하면서 처음 받은 명령인 '최대 점수를 내라' 를 이루는 방법을 찾아냈다는 것이다.
볼 컨트롤을 터득하는걸 넘어서 효과적인 전략을 스스로 찾아낸 것이다
게임화면과 점수를 입력값으로 받음. 처음에는 랜덤으로 조이스틱을 조정하다가 점수가 올라갈경우 강화학습에 의해 positive하다는 피드백을 받고 그렇지 않을 경우 negative하다는 피드백을 받음. 이 피드백을 토대로 점수가 올라가는 방향으로 학습함. 게임의 룰도 모르고 무엇을 조정하는지도 모른체 학습을 해나아가는 것.
한마디로 인간이 하는 시행착오의 과정을 매우 빠르게 반복해서 학습해나감

인스티즈앱