안녕하세요. 애나입니다.
오늘은 그저께 발표된 Google 의 AI인 Gemini에 대한 소식을 들고 왔습니다.
구글의 Gemini AI는 텍스트, 이미지, 오디오, 비디오 같이 다양한 정보 유형을 이해하고 처리할 수 있는 멀티모달 AI 모델입니다. Gemini는 MMLU에서 90%의 점수를 획득하며 전문가들을 뛰어넘 최초의 AI 모델이 되었습니다. 이 멀티모달 AI 모델은 이미지, 비디오, 오디오를 포함한 다중 모드 벤치마크에서 GPT-4V와 Whisper를 넘어서는 성능을 보여주었습니다.
Google Deep Mind 에서 공개한 데모 영상입니다. 영상을 보시면 지도를 펼쳐놓고 나라 맞추기 게임을 하고, 가위바위보를 순차적으로 내자 가위바위보 게임을 인지하고 승부를 걸기도 합니다. 이 영상을 보니 정말 인류가 특이점에 도달하고 있다는 느낌이 드네요.
Gemini는 세 가지 버전으로 제공되며 각각의 크기와 용도에 최적화되어 있습니다. 'Ultra'는 가장 크고 복잡한 작업을 위한 모델로, 뛰어난 성능을 자랑합니다. 'Pro' 버전은 광범위한 작업에 걸쳐 확장 가능한 모델이며, 'Nano'는 온디바이스 작업을 위한 가장 효율적인 모델입니다.
Gemini는 Python, Java, C++, Go 등 세계에서 가장 널리 사용되는 프로그래밍 언어를 이해하고, 설명하며, 고품질 코드를 생성할 수 있습니다. 또한, Competitive Programming을 위한 AlphaCode 2도 Gemini를 사용하여 출시되었습니다.
이 모델은 TPU v4 및 v5e를 활용하여 대규모로 교육되었으며, AI에 최적화된 인프라에서 더욱 안정적이고 확장 가능하며 효율적인 성능을 발휘합니다. Responsibility와 Safety에 중점을 두고, 포괄적인 안전성 평가를 수행하며, Gemini Pro는 Google Bard에서 바로 사용할 수 있습니다.
Gemini는 현재 영어로 170개국에서 사용 가능하며, 곧 다른 모달리티와 새로운 언어를 지원할 예정입니다. 특히, Gemini Nano는 Pixel 8 Pro에 도입될 예정이며, 몇 달 내로 검색, 광고, 크롬 및 Duet AI에도 적용될 것입니다.
12월 13일부터는 개발자와 기업 고객들이 Google AI Studio 및 Google Cloud Vertex AI를 통해 Gemini API(Pro 버전)를 이용할 수 있습니다. 또한, Gemini Ultra도 곧 사용할 수 있게 됩니다.
Gemini는 신뢰 및 안전 점검을 진행하고 있으며 공개 전에 미세 조정과 사람 피드백을 통한 강화 학습(RLHF)을 통해 모델을 더욱 정교하게 다듬고 있다고 합니다. 일부 고객, 개발자, 파트너, 안전 및 책임 전문가들에게 초기 실험과 피드백을 위해 Gemini Ultra를 제공한 후, 내년 초에 개발자와 기업 고객에게 공개할 예정이라고 하네요. 그리고 내년 초에는 Gemini Ultra를 시작으로 최고의 모델과 기능을 제공하는 새로운 최첨단 AI 환경인 바드 어드밴스드(Bard Advanced)도 출시될 예정이라고 합니다.
앞으로 A.I.의 발전이 어디까지 갈지 궁금합니다. 특이점이 오는 그 날이 얼마 남지 않은 것 같아요.
애나였습니다.
'AI 소식' 카테고리의 다른 글
춤추는 모나리자를 만들 수 있다고? - MagicAnimate (46) | 2023.12.10 |
---|---|
원하는 음악 찾기 힘든가요? 입력만 하세요 - Meta의 Audiobox (2) | 2023.12.08 |
AI로 할 수 있는 Upscaling의 신세계 - Magnific AI (3) | 2023.12.06 |
챗 GPT보다 똑똑한 의료 인공지능 - Towards Accurate Differential Diagnosis with Large Language Models (1) | 2023.12.04 |
Google이 가져올 새로운 혁신 - Google Deepmind 의 GNoME (7) | 2023.12.03 |