On the journey of

[AI TREND] 8월 1주차 AI토픽 톺아보기 본문

읽을거리

[AI TREND] 8월 1주차 AI토픽 톺아보기

dlrpskdi 2023. 8. 7. 08:33

사실 1주차라고 할 수는 없지만 이 격변하는 세상 속에....느리더라도 어느 정도는 따라가야 하지 않겠습니까?

하여....가져오게 된 8월 1주차 AI 토픽. 근데....영어는 정말 정말 정말 필수적이구나 싶다.

나름 미국에서 CS도 들어봤다곤 하지만.... 명함도 못 내밀 수준이라 텝스든 토플이든 단어암기 다시 시작해야 할 듯 ^0^....

1. OpenFlamingo

 

오픈플라밍고(OpenFlamingo)는 대형 멀티모달 모델(LMM)의 오픈 소스 모델이다. DeepMind(https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model ) 의 멀티모달 모델 명칭이 'Flamingo'였기에, 이를 오픈 소스로 재현하면서 이름을 Open Flamingo로 짓게 된 것. 오픈소스이니만큼 관련 블로그와 깃헙 링크를 달아두자면 아래와 같다. 이제 쓸 줄도 알아야 할 텐데요

https://laion.ai/blog/open-flamingo/ 

 

Announcing OpenFlamingo: An open-source framework for training vision-language models with in-context learning | LAION

<p><strong>Overview.</strong> We are thrilled to announce the release of OpenFlamingo, an open-source reproduction of DeepMind's Flamingo model. At its core,...

laion.ai

https://github.com/mlfoundations/open_flamingo

 

GitHub - mlfoundations/open_flamingo: An open-source framework for training large multimodal models.

An open-source framework for training large multimodal models. - GitHub - mlfoundations/open_flamingo: An open-source framework for training large multimodal models.

github.com

사실 내가 인턴연구원 일을 하는 랩실은 Diffusion Model이 주류인데, 멀티모달 쪽 모델을 가져오게 된 건 .. OpenFlamingo를 개발한 단체 LAION이 이미지 생성 AI(Stable Diffusion Dataset) 또한 개발한 곳이기 때문이다 ^0^ 

특히 '비영리 단체'이며, 최종적으로는 오픈소스를 공개함으로써 피드백을 불특정 다수로부터 받아 GPT-4에 필적하는 성능을 갖는 것을 목표로 하고 있다는 게 정말 멋지다고 생각한다. 플젝 하나만 해도 코드는 감춰버리는 경우가 많으니까...


2. Robotic Transformer 2

역시나 구글 딥마인드에서 공개한 모델이다.

https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action 

 

RT-2: New model translates vision and language into action

Introducing Robotic Transformer 2 (RT-2), a novel vision-language-action (VLA) model that learns from both web and robotics data, and translates this knowledge into generalised instructions for robotic control, while retaining web-scale capabilities. This

www.deepmind.com

https://robotics-transformer2.github.io/

 

RT-2: Vision-Language-Action Models

Project page for RT-2

robotics-transformer2.github.io

사실 머신러닝의 구현 방법 중 하나이자 하위 개념이 딥러닝이고, 딥러닝은 ML, NLP뿐 아니라 자율주행 등의 CV 분야에도 많이 사용되고 있다. 사실 여기까진 그래도 경험이 있어서 알고 있었는데 로봇 제어 모델은 처음 접해본다. Robotic Transformer은 '로봇 제어' 분야의, 로봇 제어 인공지능 모델 이다. 그냥 간단하게 RT-2라고 한다면, 이는 웹과 로보틱 데이터에서 학습한 데이터를 기반으로 프롬프트를 통해 동작을 제어하는 VLA 모델(Vision Language Action Model)이다. 2라는 숫자가 붙은 만큼, 더 나은 일반화 성능을 보여주는 모델이고, 관련한 링크 또한 첨부했다.


AI의 성능을 높이기 위한 노력이 세계 각지에서 이뤄지고 있지만, 사실 이런 기술적인 속도에 비해 윤리적인 문제 같은, 반드시 수반되는 문제들에 대한 논의가 충분히 이뤄지고 있다고는 생각하지 않는다. 기술 속도급은 아니더라도....이런 그림자 같은 부분은 조금 더 ... 논의가 되었으면 좋겠다.