On the journey of

[뉴스레터] 위클리 딥 다이브(1월 1주차) : VLM, CogAgent 본문

읽을거리/뉴스레터

[뉴스레터] 위클리 딥 다이브(1월 1주차) : VLM, CogAgent

dlrpskdi 2024. 1. 3. 10:26

# 21 위클리 딥 다이브 | 2024년 1월 3일
에디터 배니
💡이번주 뉴스레터에는 이런 내용을 담았어요!

시각 정보와 언어 정보를 이해하는 VLM을 소개합니다.
GUI를 이해하는 VLM, CogAgent에 대해 자세히 살펴봅니다.
CogAgent의 개발이 시사하는 바를 정리했습니다.
인간을 돕는 VLM: CogAgent

2024년 새해가 밝았습니다. 새해 복 많이 받으세요 🙌



2023년은 유독 AI의 성장세가 무섭게 느껴진 한 해였습니다. 다른 분야의 모델들도 많이 쏟아졌지만 2023년은 LLM의 해라고 봐도 무방할 정도입니다. 지난해 3월에 공개된 GPT-4는 여전히 타의 추종을 불허할 정도로 뛰어난 성능을 가지고 있고, 덕분에 오픈 소스 LLM의 성능도 상향 평준화됐습니다.



LLM 모델이 발전하면서 LLM을 활용한 다른 분야들도 덩달아 성장하기 시작했는데요. 그중 하나가 바로 Vision Language Model(VLM)입니다. VLM은 일종의 멀티모달 모델로서, 시각적 정보와 언어적 정보를 결합하여 학습한 것입니다. 일상 생활 속에서 생각해보면 눈으로 보기만 해도 이해할 수 있는 정보가 있고, 반대로 보지 않고 글을 읽기만 해도 이해할 수 있는 정보가 있습니다. VLM은 이 두 정보들을 적절하게 결합하여 사용자가 원하는 정보를 얻을 수 있도록 도와줄 수 있습니다.



그렇다면 VLM는 어떤 분야에서 잘 활용할 수 있을까요? 이미 언어 모델은 Copilot 개념으로, 연속적인 질문에 따라서 사용자가 원하는 결과를 얻을 수 있도록 도와줍니다. 여기에 시각적인 정보를 더할 수 있다면 더 쉽고 빠르게 원하는 정보를 얻을 수 있을 것입니다. 이번주 뉴스레터에서 소개할 CogAgent는 여기에 시각 정보를 더해서 우리가 컴퓨터나 스마트폰을 활용할 때 어떻게 작업을 해야 할지 가이드를 제시합니다. 그럼 CogAgent에 대해서 알아보도록 하겠습니다.

CogAgent
지난달 공개된 <CogAgent: A Visual Language Model for GUI Agents>는 논문 제목 그대로 GUI(Graphical User Interface)를 위한 VLM입니다. GUI는 스마트폰이나 PC 화면에 보이는 모든 그래픽 요소로서 컴퓨터와 상호작용할 수 있는 요소들이 여기에 해당합니다. 우리가 보는 컴퓨터 화면에 포함된 버튼이나 아이콘을 떠올리면 쉽습니다.



인간의 작업을 도와주는 모델이 이번이 처음은 아닙니다. 2023년에 AutoGPT 모델은 정말 ‘알아서’ 원하는 작업을 수행할 수 있도록 도와준다고 하여 유명세를 탔습니다. 하지만 이 정보들은 모두 텍스트 데이터의 정보를 기반으로 탐색한 결과입니다. 우리가 시각적으로 보는 아이콘, 이미지, 다이어그램 등의 정보는 단어의 형태로 직접 전달하기 어려운 경우도 있습니다. 반면 CogAgent는 시각적 정보까지 이해하고, 화면 상의 정확한 좌표로 나타내며 해야 할 작업에 가이드를 제공한다는 장점을 갖습니다.



GUI를 이해한다는 것은 인간 중심적인 관점입니다. 초기 컴퓨터는 어두운 화면에 코드를 입력해서 원하는 프로그램을 실행시키곤 했습니다. 이런 인터페이스를 CLI(Command Line Interface)라고 하는데, 이런 상호작용 방식은 많은 사람들이 컴퓨터를 사용하는 데 큰 장벽이 됩니다. GUI는 그런 어려움을 극복할 수 있는 대안으로서 제시된 인터페이스입니다. 에이전트가 GUI를 이해할 수 있다면 더 많은 분야에서 인간을 도와줄 수 있을 것입니다.



백문이 불여일견! 아래의 예시부터 살펴 봅시다

(출처: CogAgent: A Visual Language Model for GUI Agents (Hong et al., 2023)
사용자가 구글의 첫 화면을 켜고 CogAgent에게 다음과 같은 요청을 내렸습니다.
👨‍🏫 "CVPR 2023의 최우수 논문을 검색"할 수 있는 절차에 대해서 알려줄래?
Could you guide me through the steps to “search for the best paper in CVPR 2023”?
그러면 CogAgent는 검색창을 가리키며 ‘CVPR 2023 최우수 논문’을 입력하고, Enter 키를 누르고, 적절한 정보를 가리키고, 원하는 정보에 접근할 수 있도록 알려줍니다. 마치 사람이 검색하는 과정과 유사해보이지 않나요? 마찬가지로 스마트폰의 화면도 이해할 수 있습니다.
스마트폰을 보고 라이트 모드로 바꾸거나, 좋아요를 많이 받은 이유에 대해서 설명하거나, 원하는 시간에 맞춰 길찾기할 수 있는 정보도 찾아줍니다.



그렇다면 어떻게 GUI를 이해할 수 있는 VLM을 개발했을까요? 연구진은 자체적으로 개발한 CogVLM-17B를 기반으로 GUI를 이해할 수 있도록 학습시켜 CogAgent를 개발했습니다.

웹 화면의 스크린샷의 크기는 결코 작지 않고, 그 안에는 많은 버튼, 입력창 등 다양한 GUI 요소들이 포함되어 있습니다. 스크린샷의 크기를 임의로 작게 만들었다가는 GUI 요소들을 이해하지 못할 수 있습니다. 따라서 GUI를 이해하기 위해서는 고해상도의 이미지를 인식하는 모델이 필요합니다. 이를 위해 연구진은 CogVLM에 고해상도 이미지를 이해할 수 있는 모델을 덧붙였습니다.

모델 구조에 대해서 설명을 덧붙이자면, 기존 VLM이 이해할 수 있도록 기존 스크린샷의 화면을 다운샘플링하고, 그와 맞는 작업(Task)과 행동(Action)을 나타내는 텍스트를 입력합니다. 여기에 고해상도 이미지를 이해할 수 있는 이미지 인코더에서 출력된 정보와 Cross-Attention을 계산하여 최종 출력값을 얻을 수 있도록 합니다. 이때 Cross-Attention은 서로 다른 정보(고해상도의 이미지 정보 - 저해상도 이미지 정보 및 텍스트 특성 정보)에 대해서 관련성을 계산하는 과정이라고 생각하면 됩니다.

그리고 VLM은 각 화면을 보고 인간이 어떤 작업을 필요로 하는지 이해해야 합니다. 이를 위해서는 인간이 직접 레이블링 해야겠죠. 물론 모든 데이터를 인간이 레이블링하여 학습하는 것은 어렵기 때문에 기존 웹 화면 및 모바일 화면을 캡처한 스크린샷을 GPT-4에 입력하여 질문과 답변을 생성하기도 했습니다.
게다가 스크린샷을 보고 이해하는 작업이기 때문에, 이미지 내에서 선택해야 하는 요소에 대한 좌표를 정확하게 찍어야 합니다. 이런 모든 과정에 학습 데이터가 필요합니다. 그리고 데이터를 토대로 학습한 결과가 바로 CogAgent입니다.
CogAgent는 향상된 LLM 능력을 기반으로 텍스트 정보를 넘어 시각 정보를 활용해 작업을 도와줄 수 있는 모델입니다. 물론, CogAgent는 초기 모델이기 때문에 아직 개선해야 할 부분은 많이 있습니다. 잘못된 좌표를 출력하거나, 여러 이미지들을 처리하는 능력에 대한 부분이 많이 있는데요. 이 부분들은 차후 데이터가 누적되고 모델의 성능이 향상된다면 어느 정도 극복될 부분으로 보입니다.

그보다 더 중요한 것은 앞으로 AI가 실생활의 삶을 도울 수 있는 영역이 계속 개발되고 있다는 것입니다. 저자들이 공개한 데모 사이트를 참고하면 아직 스크린샷을 기반으로 에이전트 역할을 수행하기 때문에 오히려 작업을 하는 게 불편합니다. 하지만 해당 장면들을 이제 영상으로 이해할 수 있는 모델이 등장한다면 우리의 모든 작업을 연속적으로 이해하고, 더 자연스러운 상호작용이 가능할 것으로 보입니다. 때문에 많은 연구자들이 이번 연구에 주목하고 있습니다. CogAgent는 오픈 소스로 공개될 예정인 만큼 앞으로 GUI를 기반으로 돕는 모델 개발에 박차를 가할 것으로 보입니다.