출처:  https://deepmind.com/blog/agents-imagine-and-plan/

번역 출처: http://www.joysf.com/forum_sf/4956845

안녕하세요 DeepMind에서 개발한 새로운 알고리즘인 Imagination - augmented agent 를 소개드립니다.

사람이 어떤 행동을 할 때 먼저 머리 속에서 시뮬레이션을 하고 진행하는 것과 비슷하게 agent가 미래 보상을 먼저 상상하면서 행동원리를 익혀나가는 방법입니다. 이 방법은 바둑에서의 알파고의 경우와는 달리 보상을 추정할 모델이 존재하지 않는 경우에도 적용이 가능하기 때문에 예상하지 못한 변수가 생길 수 있는 현실 세계의 문제에 적용이 더 용이 하다고 합니다.

영어로 읽어도 좋으시겠지만 친절하게 번역해둔 글이 있어서 올려봅니다. 링크를 따라가시면 예제 동영상과 설명하는 그림을 볼 수 있습니다.

Imagining the consequences of your actions before you take them is a powerful tool of human cognition. When placing a glass on the edge of a table, for example, we will likely pause to consider how stable it is and whether it might fall. On the basis of that imagined consequence we might readjust the glass to prevent it from falling and breaking. This form of deliberative reasoning is essentially ‘imagination’, it is a distinctly human ability and is a crucial tool in our everyday lives.


어떤 행동을 하기 전에 그 행동으로 발생할 결과를 상상하는 것은 인간이 가진 강력한 인지적 도구이다. 예를 들어 탁자 가장자리에 유리잔을 놓을 때 우리는 먼저 유리잔이 얼마나 안정되게 놓여 있을지 그리고 바닥으로 떨어질 위험은 없는지 생각해볼 것이다. 이러한 상상에 기반하여 우리는 유리잔이 바닥으로 떨어져 깨지지 않도록 다른 곳에 놓을 수 있다. 이러한 형태의 자문적 사고는 상상력의 중요한 요소이며, 인간이 가지는 특징이자 일상생활을 영위하는데 있어서 매우 중요한 도구이다.


If our algorithms are to develop equally sophisticated behaviours, they too must have the capability to ‘imagine’ and reason about the future. Beyond that they must be able to construct a plan using this knowledge. We have seen some tremendous results in this area - particularly in programs like AlphaGo, which use an ‘internal model’ to analyse how actions lead to future outcomes in order to to reason and plan. These internal models work so well because environments like Go are ‘perfect’ - they have clearly defined rules which allow outcomes to be predicted very accurately in almost every circumstance. But the real world is complex, rules are not so clearly defined and unpredictable problems often arise. Even for the most intelligent agents, imagining in these complex environments is a long and costly process. 


컴퓨터 알고리즘이 위에서 말한 것처럼 복잡한 행동을 보이기 위해서는 미래를 '상상'하고 생각하는 능력을 가져야 한다. 또한 컴퓨터 알고리즘은 해당 지식에 기반하여 계획을 세울 줄 알아야 한다. 우리는 이 분야에 있어서 일부 놀라운 결과를 얻었으며, 그 사례로는 알파고가 있다. 알파고는 이른바 '내적모형'을 사용하여 자신의 행동이 미래에 어떤 결과를 가져오는지 분석하여 앞으로의 계획을 수립한다. 알파고의 내적모형이 성공적으로 작동한 이유는 바둑과 같은 환경이 '완벽'한 성격을 가지기 때문이다. 바둑과 같은 환경은 명확하게 규정된 규칙을 가지기 때문에 거의 모든 경우에 있어서 어떤 결과가 나올지 매우 정확하게 예측할 수 있다. 그러나 실제 세계는 복잡하며 규칙들이 명확하게 규정되지 않을 뿐더러 예측하지 못한 문제들이 종종 발생한다. 가장 지능이 높은 대리체들에게 있어서도 이러한 복잡한 환경 속에서 미래를 상상하는 것은 매우 시간이 오래 걸리고 자원을 많이 소요하는 과정이다.


Imagination-augmented agents


The agents we introduce benefit from an ‘imagination encoder’- a neural network which learns to extract any information useful for the agent’s future decisions, but ignore that which is not relevant. These agents have a number of distinct features:


우리가 소개할 대리체는 '상상부호기'를 사용한다. 상상부호기란 대리체가 앞으로 할 일을 결정하는데 필요한 모든 정보를 추출하면서 동시에 필요없는 정보는 무시하는 법을 학습하는 일종의 인공신경망이다. 해당 대리체는 다음과 같은 특징을 가진다:


  • they learn to interpret their internal simulations. This allows them to use models which coarsely capture the environmental dynamics, even when those dynamics are not perfect.

  • 자신의 내적 시뮬레이션을 해석하는 방법을 배울 수 있다. 이 덕분에 대리체는 세상이 어떻게 돌아가는지 완벽하게 알 수 없는 상황에서도 일련의 모형을 사용하여 대략적으로 세상 돌아가는 방식을 파악할 수 있다.


  • they use their imagination efficiently. They do this by adapting the number of imagined trajectories to suit the problem. Efficiency is also enhanced by the encoder, which is able to extract additional information from imagination beyond rewards - these trajectories may contain useful clues even if they do not necessarily result in high reward.

  • 상상을 효율적으로 사용할 수 있다. 대리체는 상상에 떠오르는 경로 몇 개를 문제에 적합한 형태로 조정한다. 여기에 더하여 부호기가 효율성을 향상시키는데, 그 이유는 부호기가 보상의 크기와 상관없이 상상에서 추가적인 정보를 추출해내기 때문이다. 상상에 떠오르는 경로는, 만일 해당 경로가 높은 보상으로 연결되지 않는다 하더라도, 어떤 유용한 실마리를 제공해줄 수 있다.  


  • they can learn different strategies to construct plans. They do this by choosing between continuing a current imagined trajectory or restarting from scratch. Alternatively, they can use different imagination models, with different accuracies and computational costs. This offers them a broad spectrum of effective planning strategies, rather than being restricted to a one-size-fits-all approach which might limit adaptability in imperfect environments. 

  • 다양한 전략을 사용하여 계획을 수립하는 방법을 배울 수 있다. 대리체는 지금 상상되는 경로를 계속해서 진행하거나 맨 처음부터 다시 시작할지 결정한다. 또한 대리체는 다양한 상상모형을 사용할 수 있으며, 각각의 상상모형마다 정확도와 계산비용이 다르다. 때문에 대리체는 효율적인 다수의 계획전략을 폭넓게 선택할 수 있으며, 하나의 전략으로 모든 문제를 해결하겠다는 사고방식으로 인해 불완전한 환경에서 적응능력이 떨어지는 문제를 겪지 않는다.

Testing our architectures


We tested our proposed architectures on multiple tasks, including the puzzle game Sokoban and a spaceship navigation game. Both games require forward planning and reasoning, making them the perfect environment to test our agents' abilities.


우리는 위에서 기술한 아키텍처를 다양한 과제로 시험하였으며, 여기에는 퍼즐게임 '소코반'과 우주선 조종게임이 포함되었다. 이 두 게임은 사전계획을 필요로 하기 때문에 아키텍처를 시험하는데 이상적인 환경이다.

  • In Sokoban the agent has to push boxes onto targets. Because boxes can only be pushed, many moves are irreversible (for instance a box in a corner cannot be pulled out of it).

  • 소코반 게임에서 대리체는 목표지점까지 박스를 밀어 옮겨야 한다. 박스는 오로지 밀 수만 있기 때문에, 대다수의 행동은 비가역적이다(예를 들어 박스를 구석으로 밀어 옮긴 경우, 그 박스를 다시 당겨서 꺼낼 수 없다)

  • In the spaceship task, the agent must stabilise a craft by activating its thrusters a fixed number of times. It must contend with the gravitational pull of several planets, making it a highly nonlinear complex continuous control task.

  • 우주선 조종게임에서 대리체는 정해진 횟수만큼 추진기를 착동시켜 우주선을 안정시켜야 한다. 주변 행성이 가하는 중력 때문에 우주선 제어가 고도로 비선형적이며 복잡한 연속적 과제가 된다.

To limit trial-and-error for both tasks, each level is procedurally generated and the agent can only try it once; this encourages the agent to try different strategies 'in its head' before testing them in the real environment.


위에서 언급한 두 가지 과제에서 시행착오 횟수를 제한하기 위해 각각의 레벨은 새로 생성되었으며 대리체는 딱 한번만 시도가 가능했다. 이 때문에 대리체는 실제 환경에서 전략을 수행하기 전에 먼저 '머릿속에서' 다양한 전략을 시도해야 했다.


For both tasks, the imagination-augmented agents outperform the imagination-less baselines considerably: they learn with less experience and are able to deal with the imperfections in modelling the environment. Because agents are able to extract more knowledge from internal simulations they can solve tasks more with fewer imagination steps than conventional search methods, like the Monte Carlo tree search.

When we add an additional ‘manager’ component, which helps to construct a plan, the agent learns to solve tasks even more efficiently with fewer steps. 

위에서 말한 두 가지 과제에서 상상증강대리체는 상상이 결여된 대리체보다 더욱 높은 성공률을 기록했다. 상상증강대리체는 상대적으로 적은 경험으로도 학습이 가능했으며 주변환경 모델링이 불완전해도 이를 극복해냈다. 상상증강대리체는 내적 시뮬레이션에서 더 많은 정보를 추출해낼 수 있기 때문에, 몬테카를로 트리서치 같은 기존 탐색방법보다 더 적은 행동횟수로 과제를 해결해낼 수 있었다. 차후 해당 대리체에 계획 수립을 도와주는 '관리자' 요소를 추가하자 해당 대리체는 과제를 예전보다 더욱 적은 행동횟수로 해결해냈다. 


In the spaceship task it can distinguish between situations where the gravitational pull of its environment is strong or weak, meaning different numbers of these imagination steps are required. When an agent is presented with multiple models of an environment, each varying in quality and cost-benefit, it learns to make a meaningful trade-off. Finally, if the computational cost of imagination increases with each action taken, the agent imagines the effect of multiple chained actions early, and relies on this plan later without invoking imagination again.

우주선 조종게임의 경우 상상증강대리체는 주변환경이 우주선에 가하는 중력이 강한지 아니면 약한지 구별할 수 있었으며, 따라서 상상의 단계를 조절해야 했다. 대리체에게 다양한 환경모형이 주어졌을 때 (환경모형 각각은 서로 다른 정확도와 계산비용을 가진다) 대리체는 환경모형의 정확도와 계산비용을 적절하게 조율하는 방법을 배웠다. 마지막으로, 만일 어떤 행동을 할 때마다 상상에 소요되는 계산비용이 늘어나도록 설정한 경우, 대리체는 일련의 행동으로 발생하는 결과를 미리 상상해 놓은 다음 나중에 필요할 때 써먹는다 (이렇게 하면 다시 상상을 할 필요가 없기 때문이다).



Being able to deal with imperfect models and learning to adapt a planning strategy to current state are important research questions. Our two new papers, alongside previous work by Hamrick et al. consider these questions. While model-based reinforcement learning and planning are active areas of research (papers by Silver et al.; Henaff et al.; and Kansky et al. are a just a few examples of related lines of enquiry), further analysis and consideration is required to provide scalable solutions to rich model-based agents that can use their imaginations to reason about - and plan - for the future.


주변환경에 대한 불완전한 모형과 계획전략을 현 상태에 맞춰 적응시키는 능력은 매우 중요한 연구주제이다. 우리가 발표한 두 논문은 기존에 햄릭과 그 외가 발표한 바 있는 기존 논문과 더불어 해당 주제를 다루고 있다. 모형에 기반한 강화학습 및 계획은 현재 연구가 많이 이루어지고 있으므로 (실버와 그 외, 헤나프 그 외, 칸스키 그 외가 발표한 논문은 해당 주제와 관련한 연구사례 중 극히 일부이다), 상상력을 사용하여 미래를 생각하고 계획을 수립할 수 있는 다양모형기반 대리체 개발에 필요한 확장가능한 해결책과 관련하여 지속적인 분석과 고려가 필요하다.






profile