On the journey of

[모두레터] Stable Diffusion 본문

읽을거리/뉴스레터

[모두레터] Stable Diffusion

dlrpskdi 2023. 8. 9. 09:24

URP 인턴연구원을 하면서 Diffusion Model에 대해 지속적으로 공부하는 만큼 이번 주제가 꽤나 재미있게 다가왔다 :) 


SDXL 1.0 정식 출시 

SDXL이란 'Stable Diffusion XL'의 약어로, 스테빌리티 AI 사의 Diffusion 모델을 의미한다. 지난 7월 논문발표를 시작으로 이번 8월 Ver 1.0으로 출시된 것 :) 선호도 또한 전반적으로 SDXL을 사용한 이미지에 대해 더 높았는데다, 기존 생성모델의 한계점으로 지적되었던 인물의 손 이미지 혹은 위치 정보(배경, 전경 등) 또한 잘 표현해냈다는 점에서 평가가 좋다! Open Source로 공개되어 있는 만큼 링크도 첨부해 본다 :)

https://clipdrop.co/stable-diffusion 

 

Create stunning visuals in seconds with AI.

Remove background, cleanup pictures, upscaling, Stable diffusion and more…

clipdrop.co

https://dreamstudio.ai/

 

DreamStudio

DreamStudio is an online creative tool to generate images with AI. Made by the world's leading open source generative AI company, Stability.ai.

dreamstudio.ai

 

 

https://stability.ai/blog/stable-diffusion-sdxl-1-announcement 

 

Announcing SDXL 1.0 — Stability AI

The Stability AI team is proud to release as an open model SDXL 1.0, the next iteration in the evolution of text-to-image generation models. Following the limited, research-only release of SDXL 0.9, the full version of SDXL has been improved to be the worl

stability.ai


AudioCraft : 오디오 생성을 위한 오픈소스 라이브러리 공개

이미지나 텍스트 생성모델에 비해 당장 저 위의 모델만 봐도...이미지 생성모델이잔하.. 오디오 생성모델은 연구가 적은 편이다. META AI에서 공개한 AudioCraft가 달가운 이유다. 

오디오크래프트는 크게 MusicGen, AudioGen, Encodec으로 구성되어 있다. MusicGen / AudioGen은 적힌 대로, 텍스트 프롬프트로부터 음악과 효과음을 생성하는 모델이고, 인코덱은 생성된 오디오 파일을 압축하기 위한 모델(코덱 모델)이다. 하이퍼링크를 달아는 놨지만... 링크도 첨부! 

https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/

 

AudioCraft: A simple one-stop shop for audio modeling

AudioCraft consists of three models: MusicGen, AudioGen, and EnCodec. MusicGen, which was trained with Meta-owned and specifically licensed music, generates music from text-based user inputs, while AudioGen, which was trained on public sound effects, gener

ai.meta.com

 

RT-2 발표

새삼.... 놀랍다 AI 분야 기술이 하루가 멀다 하고 발전하는 건 알고 있었는데...정말...정말...발표된 모델만 3종류라니 심지어 분야가 다 다르다니..? 너무 놀랍다 ㅇㅁㅇ...

RT-2는 VLM에 로봇의 행동을 결합한 모델로, 구글 딥마인드가 발표한 모델이다. VLA란 Vision-Language Action의 줄임말이고 RT란 Robotic Transformer의 줄임말이다. VLM은 이미지와 텍스트 데이터를 모두 처리할 수 있는 모델이다. 그러나 이를 로봇이 수행할 수 있도록 하려면 행동 데이터가 추가적으로 필요했는데... 기본적으로 AI를 위한 데이터가 필요하다 하면 사진 한두 장으로 되는 일이 아니다. 정말 GPU를 동원할 정도의.... 양이 필요하다는 건데, 딥마인드는 입력 이미지(input), Instruction(명령), 행동(로봇의 행동; Action)을 모두 토큰의 형태로 표현하여 RT-2를 개발한 것! RT-2인 이유는 RT-1(ver.1)보다 성공률이 높았기 때문 :-D 관련 링크는 아래와 같다!

https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action

 

RT-2: New model translates vision and language into action

Introducing Robotic Transformer 2 (RT-2), a novel vision-language-action (VLA) model that learns from both web and robotics data, and translates this knowledge into generalised instructions for robotic control, while retaining web-scale capabilities. This

www.deepmind.com