Product
개요영상그래픽문서
Enterprise
Story
레터/테크 노트소식/공지
Pricing
Ko
한국어English日本語日本語
이용 가이드
레터웍스 시작 
한국어English日本語
한국어English日本語
인공지능에 감각을 더하다, 멀티모달(Multi-modal) AI
2022-08-26

대부분의 인공지능은 한 가지 일만 잘 하게 훈련되어 있습니다. 물론 그 한 가지에 특화된 AI 모델 각각의 성능이 강력하기는 하지만요. 마치 체스 세계 챔피언을 꺾은 IBM의 슈퍼 컴퓨터 '딥 블루(Deep Blue)'처럼 말입니다.

‍

당시 사람들은 인간의 패배를 지켜보며 이제 컴퓨터가 인간을 압도하지 않을까 걱정했습니다. 그런데 실제 세상은 체스판 위보다 훨씬 복잡하고, 알고 보면 딥 블루는 체스 외에는 아무것도 할 수 없었죠. 바로 이 지점에 기술의 한계가 있고, 아직까지는 AI가 인간을 넘어설 수 없는 이유이기도 합니다.

‍

"사실 규칙과 논리가 지배하는 체스는 비교적 컴퓨터에게 유리한 게임입니다. 오히려 인간이라면 크게 의식하지 않고 자연스럽게 수행하는 활동을 더 어려워하죠. 예를 들어 복잡한 도로 위에서 운전하고, 대화를 나누며 친구의 감정을 읽는 것과 같은 일상적인 일들 말입니다."*

‍

‍

‍

언어 모델의 한계

오픈AI의 GPT-3는 인류 역사상 가장 뛰어난 AI로 불렸습니다. 사람과 대화하듯 채팅을 할 수 있고, 심지어 장문의 글도 쓸 수 있으니까요. 그것도 어설픈 수준이 아니라 언론에 칼럼을 기고하고, 소설을 쓰기도 했습니다.

‍

다만 이렇게 강력한 GPT-3도 기존의 AI와 같은 한계를 가지고 있습니다. (엄청난 대규모의 분량이지만) 텍스트 데이터만으로 학습을 했거든요. 언어 능력만 보면 인간에 근접한 것 같지만, (세상을 글로 배워서) 엉뚱하거나 기초적인 실수를 하는 경우도 꽤 있습니다.

‍

아래는 해외의 AI 전문가가 찾아낸 GPT-3의 실수 사례입니다. 앞서 언급한 AI의 한계를 확인할 수 있죠. 우리가 흔히 말하는 '상식'이 없는 것만 같습니다.**

‍

Q: How many eyes does a giraffe have?

A: A giraffe has two eyes.

‍

Q: How many eyes does my foot have?

A: Your foot has two eyes.

‍

Q: How many eyes does a spider have?

A: A spider has eight eyes.

‍

Q: How many eyes does the sun have?

A: The sun has one eye.

‍

Q: How many eyes does a blade of grass have?

A: A blade of grass has one eye.

‍

‍

멀티모달 AI의 등장

반면 인간은 텍스트만 갖고 세상을 이해하지 않습니다. 텍스트는 물론 이미지, 오디오, 비디오 등 다양한 포맷의 정보를 받아들여서 공유하고, 소통하죠. 덕분에 입체적이면서 직관적인 사고가 가능하고, 상대방과 공감하면서 대화를 나눌 수도 있습니다.

‍

이것이 바로 최근 AI 업계의 주요 화두 중 하나이자, 이번 포스트의 주제인 멀티모달 AI가 등장한 이유입니다.

‍

멀티모달 AI는 이미지, 텍스트, 음성, 비디오 등 다양한 모달리티***를 동시에 받아들여 사용합니다. 음성, 제스처, 시선, 표정, 생체신호 등 여러 데이터를 받아 인간을 흉내 낸 종합적인 사고를 할 수 있죠. 이렇게 우리가 세상을 받아들이는 방식에 다가선 AI는 인간과 좀 더 자연스럽게 소통할 수 있습니다.

‍

이미지: TED****

‍

또한 글 쓰기 이외에도 다양한 일을 할 수 있습니다. 다양한 데이터를 기반으로 새로운 일을 할 수 있게 진화하는 것이죠. 예를 들어 다양한 이미지를 학습해 창의적인 디자인을 하고, 간단한 텍스트를 영상으로 만들어 낼 수도 있습니다.

‍

‍

멀티모달 AI의 시대

우선은 GPT-3와 같은 언어 모델에 감각을 더하는 시도가 이루어졌습니다. 감각 인식 분야에서 역사와 전통이 있는 컴퓨터 비전이 먼저 적용되기 시작했죠. 만약 단어와 시각 정보를 연계할 수 있다면 모델의 독해력은 물론 이후 적용 분야도 확대될 것이라 기대했기 때문입니다.

‍

그 결과 이러한 시도가 드디어 궤도에 올라섰음을 알린 것이 '달리(DALL-E)'입니다. 오픈AI가 GPT-3에 이어 다시 한번 놀라운 성과를 보여준 것이죠. 초거대 멀티모달 AI DALL-E는 NLP 기술에 이미지 인식을 더한 결과 새로운 이미지를 창조해낼 수 있게 되었습니다.

‍

이어서 2022년 발표된 DALL-E 2는 여기서 한 발 더 나아간 성과를 보여줍니다. 기존의 사진을 편집하고, 수정하는 새로운 기능이 추가되는 등 업그레이드가 있었거든요. 덕분에 이전보다 훨씬 발전한 사실적이면서도 예술적인 고해상도의 이미지를 만들어 낼 수 있게 되었습니다.

‍

이미지: Open AI

‍

또한 DALL-E 외에도 다양한 멀티모달 AI가 계속해서 공개되고 있습니다. 구글은 텍스트-이미지 확산 모델(Diffusion Model)인 이마겐(Imagen)을 공개했고, 국내 기업들도 속속 뛰어들고 있는 상황이죠. 카카오브레인의 민달리(minDALL-E)는 달리와 비슷한 결과물을 보여줬고, LG AI 연구원은 텍스트와 이미지 간 양방향 사고가 가능한 엑사원(EXAONE)을 발표했습니다.

‍

‍

멀티모달 AI의 부작용

‍

멀티모달 AI도 언어 모델과 마찬가지로 윤리적 문제로부터 자유롭기 힘듭니다. 학습 데이터의 편향에 영향받을 수 밖에 없는 오늘날 AI의 공통적인 문제이죠. 이미 세상에 퍼져있는 인종이나 성별 등에 관한 잘못된 편견을 학습한 AI가 문제를 일으킬 수 있는 겁니다.

‍

그래서 대부분의 멀티모달 AI는 공개나 사용에 제약을 두고 있습니다. 유해한 이미지를 필터링하고, 특히 실제 사람 이미지의 생성은 엄격하게 금지하고 있죠. 편향성에 대한 근본적인 해결책이 나오지 않는 한 일부 악의적인 사용자들이 공격적이거나, 선정적인 결과물을 만들어 낼 수 있으니까요.

‍

다만 연구자들도 이런 문제를 지켜보고 있지는 않습니다. 멀티모달 AI의 등장 이후 나타난 다양한 사례와 데이터, 피드백을 수집하면서 계속해서 개선해가고 있죠. DALL-E의 경우 편향없는 이미지 생성을 위한 기술을 개발하고, 필터링을 강화해 유해한 이미지를 차단하는 등 다각적인 노력을 펼치고 있습니다.

‍

멀티모달 AI는 잠재된 가능성이 많습니다. 다만 모든 AI 기술이 그러하듯, 결국은 인류에게 도움이 되는 방향으로 발전해야겠죠. 궁극적으로 AI가 인류에게 위협이 아닌 기회가 될 수 있도록 보다 윤리적이고, 책임감있는 개발과 사용이 이루어져야 할 것입니다.

‍

‍

‍

* 간접인용 https://www.technologyreview.kr/ai의-과거를-통해-ai의-미래를-본다/

** 발췌/정리 https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html, https://multiverseaccordingtoben.blogspot.com/2020/07/gpt3-super-cool-but-not-path-to-agi.html

*** https://en.wikipedia.org/wiki/Modality_(human–computer_interaction)

**** https://www.ted.com/talks/jeff_dean_ai_isn_t_as_smart_as_you_think_but_it_could_be

‍

‍

References

[1] https://www.technologyreview.kr/ai의-과거를-통해-ai의-미래를-본다/

[2] https://www.blog.google/products/search/introducing-MUM/

[3] https://www.ted.com/talks/jeff_dean_ai_isn_t_as_smart_as_you_think_but_it_could_be

[4] https://openai.com/dall-e-2/

[5] https://openai.com/blog/dall-e-2-extending-creativity/

[6] http://www.aitimes.com/news/articleView.html?idxno=144897

[7] https://www.kakaobrain.com/contents?contentId=6c33343e-4c3c-4bf5-8927-7649d90bab98

[8] http://www.aitimes.com/news/articleView.html?idxno=141958

[9] http://www.aitimes.com/news/articleView.html?idxno=144483

[10] http://www.aitimes.com/news/articleView.html?idxno=145260

[11] https://openai.com/blog/reducing-bias-and-improving-safety-in-dall-e-2/

‍

함께보면 좋은 콘텐츠

  • [우리 곁의 AI] 인공지능은 인간과 교감할 수 있을까?
  • 언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)
  • 언어 천재가 된 AI, 다국어(Polyglot) 모델 (2)
  • ‍

    ‍

    🚀데이터 인텔리전스 플랫폼 '레터웍스' 지금 바로 경험해보세요.

    • 노트의 내용을 실제로 이용해 보세요! (한 달 무료 이용 가능 🎉)
    • AI 기술이 어떻게 적용되는지 궁금한가요? (POC 샘플 신청하기 💌)

    ‍

    ‍

    ‍

    전체 목록 보기

    다음 노트 살펴보기

    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(4편_생성 결과물 비교)
    2025-04-28
    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(3편_생성 결과물 비교)
    2025-04-25
    WORKS note
    월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(2편_인터페이스 비교)
    2025-04-23
    이용 가이드
    문의하기
    (주) 트위그팜
    사업자등록번호 : 556-81-00254  |  통신판매번호 : 2021-서울종로-1929
    대표 : 백선호  |  개인정보관리책임자 : 박현택
    서울 본사 : (03187) 서울 종로구 6(서린동) 6층
    광주 지사 : (61472) 광주광역시 동구 금남로 193-22
    싱가폴 아시아 지사 : (048581) 16 RAFFLES QUAY #33-07 HONG LEONG BUILDING SINGAPORE
    Family site
    TwigfarmLETR LABSheybunny
    이용약관
    |
    개인정보처리방침
    ⓒ 2024 LETR WORKS. All rights reserved.