로그인 해주세요.

IT 소식 *최신 IT소식을 보거나 등록하실 수 있습니다.

뉴스봇

소식 엔비디아, CVPR 2021서 화상회의용 딥러닝 모델 공개

엔비디아(CEO 젠슨 황)가 국제 컴퓨터 비전 컨퍼런스인 CVPR(Computer Vision and Pattern Recognition) 2021에서 화상회의용 딥러닝 모델 비드 투 비드 카메오(Vid2Vid Cameo)를 공개했다.

 

클라우드 네이티브 AI 동영상 스트리밍 플랫폼인 엔비디아 맥신(NVIDIA Maxine) SDK 기반의 비드 투 비드 카메오는 생성적 적대 신경망(GAN)을 통해 사용자의 2D 이미지만으로 참여자가 실제 말하는 것과 같은 토킹헤드(taking-head) 합성 영상을 생성한다. 이로써, 사용자는 언제 어디서나 증명사진과 같은 완벽한 모습으로 화상회의에 참여할 수 있게 됐다.


비드 투 비드 카메오를 통해 화상회의에 참여하기에 앞서 사용자는 자신의 사진이나 캐릭터 아바타와 같은 참조 이미지를 제출해야 한다. 이후, 화상회의를 시작하면 AI 모델이 사용자의 움직임을 실시간으로 포착해 이를 기존에 제출한 참조 이미지에 적용한다.

예를 들어 사용자가 정장을 입은 사진을 업로드하면, 실제로 옷을 갖춰 입지 않더라도 화면에는 정장을 입은 모습으로 보이게 된다. 이는 AI가 사용자의 얼굴 움직임을 기존에 제출한 사진에 매핑했기 때문이다. 참여자가 얼굴을 왼쪽으로 돌려도 AI가 시선 처리를 해주기 때문에 시선은 웹캠을 정면으로 마주하는 모습으로 보인다.

해당 AI 기술은 회의 참석자의 용모를 단정하게 하는 것 외에도, 기존 화상회의에 필요한 대역폭을 최대 10배까지 줄여 지터(jitter) 및 랙(lag) 현상을 방지한다. 해당 기술은 곧 엔비디아 비디오 코덱 SDK(NVIDIA Video Codec SDK)에서 AI 페이스 코덱(AI Face Codec) 형식으로 제공될 예정이다.

 

비드 투 비드 카메오는 이번 주 개최된 온라인 학술대회 CVPR 2021에서 엔비디아의 28개 논문 중 하나로 발표됐으며, AI 플레이그라운드(AI Playground)에서 누구나 리서치 데모를 직접 체험할 수 있다.

 

 

 

비드 투 비드 카메오는 얼굴 방향 전환 기능, 애니메이션 아바타, 데이터 압축 기능 등을 핵심으로 한다. 이러한 기능들은 엔비디아 맥신 SDK에 곧 도입될 예정이다. 엔비디아 맥신 SDK는 화상회의 및 라이브 스트리밍의 비디오, 오디오, 증강현실 효과를 위해 최적화된 사전교육 모델을 개발자들에게 제공하는 플랫폼이다.

현재 이용 가능한 맥신 AI 효과는 지능형 소음 제거, 비디오 업스케일링 및 신체 포즈 예측을 비롯해 다양하게 제공된다. 무료로 다운로드 가능한 SDK는 녹음이나 번역 애플리케이션 등의 대화식 AI 애플리케이션을 위한 엔비디아 자비스(NVIDIA Jarvis) 플랫폼과 함께 사용 가능하다.

비드 투 비드 카메오를 통해 화상회의에 사용되는 사실적인 AI 토킹헤드(taking head)를 만들려면 인물을 찍은 사진과 함께 사진 속 인물이 움직이는 방식을 보여주는 스트리밍 영상이 필요하다.

엔비디아 DGX 시스템에서 개발된 비드 투 비드 카메오는 18만 개의 고품질 토킹헤드 영상 데이터 세트에 기반해 훈련됐다. 훈련을 거친 GAN은 별도의 설명 없이도 얼굴의 움직임을 모델링하는 데 필요한 20개의 중심 포인트(point)를 식별하는 방법을 학습한다. 각 포인트는 눈, 코, 입 등의 특징적인 위치를 인코딩한다.

이후, 해당 모델은 회의 참여자가 업로드한 참조 이미지에서 중심 포인트를 추출하고, 이를 다른 회의 참여자에게 미리 보내거나 이전 화상회의에서 사용했던 포인트를 재사용할 수도 있다. 이를 통해 화상회의 플랫폼은 대용량의 라이브 비디오 스트림을 전송할 필요 없이 단순히 화자의 얼굴에 적용된 중점포인트의 움직임과 관련된 데이터만 전송하면 된다.

데이터 수신자 측의 GAN 모델은 이 정보를 사용해 화상회의의 영상을 합성하고 참조 이미지와 거의 똑같은 모습을 만든다.

 

 이 기술은 비디오스트림 전체를 주고받을 필요없이, 사용자의 머리 위치와 얼굴의 중심포인트로 간소화된 데이터를 서로 주고받음으로써 화상회의에 필요한 대역폭을 10배까지 줄여 준다. 따라서, 보다 원활한 사용자 환경을 제공할 수 있다. GAN 모델은 시각적 퀄리티의 저하 없이 다양한 대역폭 환경에 적응하기 위해, 중요포인트 개수를 조정하여 전송할 수도 있다.

또한, 영상 속 토킹헤드의 시선을 자유자재로 조정해 사용자의 모습을 측면이나 정면으로 보여줄 수 있으며, 높거나 낮은 카메라 각도 처리도 가능하다. 이 기능은 정지된 이미지를 작업하는 사진 편집기에 사용될 수도 있다.

 

동작 데이터를 전송하는 기능을 통해 화자의 얼굴 움직임은 화상회의 속 디지털 아바타(digital avatar)를 애니메이션화 하도록 적용될 수 있으며, 비디오 게임 및 만화 캐릭터에 더욱 사실적인 얼굴 표정과 움직임을 덧입히도록 적용될 수 있다.

 

 

 

비드 투 비드 카메오에 대한 논문은 엔비디아 연구원 왕팅춘(Ting-Chun Wang), 아룬 맬리아(Arun Mallya), 류밍유(Ming-Yu Liu)가 공동 집필했다. 엔비디아 연구팀은 AI, 컴퓨터 비전, 자율주행 자동차, 로보틱스, 그래픽 등의 분야를 중심으로 하는 전 세계 200여 명의 과학자로 구성된다.

 

 

뉴스봇
·🏆정보의 신⚡
댓글
0
취소
번호 분류 제목 글쓴이 날짜 조회 수
공지 소식 IT 소식 게시판 이용 수칙 230127 admin 19.11.15 9 49855
핫글 소식 EU, 아이폰에 `iOS` 타사 개방 요구 [4] new 룬룬 01:05 4 945
핫글 소식 Clicks, 아이폰16 시리즈용 키보드 케이스 발표 [4] newfile Stellist 24.09.21 2 302
핫글 소식 앤커, 일부 맥세이프 보조배터리 화재 위험으로 리콜 [2] file Stellist 24.09.21 2 260
63678 소식 애플페이 신규 서비스 지역 추가 [11] file sweat 22.03.17 13 5414
63677 소식 삼성폰, 보급형부터 프리미엄까지 모두 LG 배터리 쓴다 [4] 히타기새 22.06.03 10 4725
63676 소식 갤럭시워치, 애플 이어 '2위' 지켰다…아태지역서 인기에 출하량 50%↑ [8] 프로입털러 22.06.03 3 4373
63675 소식 '탈일본' 러시 불붙었다…日 스미토모, 한국서 반도체 EUV 포토레지스트 첫 출하 [뒷북비즈] [5] file Angry 22.06.04 12 4345
63674 소식 [루머] 갤럭시Z플립4 두께 및 무게 관련 내용 [7] 노다 22.06.03 0 4305
63673 소식 삼성 평택캠퍼스 'P5 증설' 임박했나..이사회, 반도체 투자 집중 논의 [2] 갤럭시Z플립4 22.06.04 1 4146
63672 소식 이재용의 "목숨 걸고"…거칠어진 한마디, 어쩌다 나왔나 [18] file S펜내장기원 22.05.29 14 3889
63671 소식 삼성 3나노 웨이퍼에 서명한 바이든…'반도체 동맹' 깊게 새겼다 [9] 프로입털러 22.05.20 10 3855
63670 소식 '테라 부활 계획' 제안한 권도형, "루나 안 팔았다…테라 생태계는 되살려야" [15] 프로입털러 22.05.14 2 3792
63669 소식 애플이 앱스토어 해킹 통계를 공개한 이유 뉴스봇 22.06.03 0 3776
63668 소식 "아이폰 사용자는 이미 쓰고 있다" 구글이 애플에서 베낀 신기능 5가지 [6] 뉴스봇 22.05.13 0 3746
63667 소식 테슬라, ‘AI 데이 2 ’9월 30일로 연기..’옵티머스’ 로봇 공개 기대감은 커져! 뉴스봇 22.06.03 1 3722
63666 소식 파이어폭스, iOS 17.4 이후 사용자 수 대폭 증가 [2] file Stellist 24.03.14 3 3705
63665 소식 “이제 배달음식 안 먹어요” 이 정도일 줄이야…천하의 배민도 휘청 [16] aleji 22.05.23 19 3694
63664 소식 한종희 삼성전자 부회장 “삼성만의 메타버스 만들 것” [7] 프로입털러 22.05.05 4 3660
63663 소식 ASUS, 새 스마트폰 Zenfone 11 Ultra 발표 [2] file Stellist 24.03.15 3 3613
63662 소식 [단독] 이재용, 450조 투자에 "목숨 걸고 한다…앞만 보고 갈 것" [16] Aimyon 22.05.26 16 3559
63661 소식 TI, ‘시타라 AM62 프로세서’ 출시…“엣지 AI 접근성 향상되고 전력 소모량 줄여” 뉴스봇 22.06.03 0 3558
63660 소식 “엄마, 난 최신폰 필요없어”…울아들 천사인 줄 알았는데, 알고보니 ‘이것’ 때문? [26] aleji 24.03.30 5 3527
63659 소식 티맥스-틸론, ‘개방형OS 공공 조달 총판 및 기술 지원 계약’ 체결 뉴스봇 22.06.03 0 3512
63658 소식 에픽게임즈, 명작 FPS 게임 울펜슈타인을 무료로 제공 file 뉴스봇 22.06.03 0 3476
63657 소식 삼성전자 "3나노 수율 잡았다"…파운드리도 주도권 [25] 노다 22.05.12 8 3452
63656 소식 삼성D, IT용 8.5세대 OLED 라인 월 15K 우선투자 가능성 뉴스봇 22.06.03 0 3417
63655 소식 [단독] 이재용, 평택공장서 바이든에게 직접 3나노 최신공정 소개 [13] aleji 22.05.19 14 3370
63654 소식 Astrohaus, 휴대용 문서작성기 Freewrite Alpha 발표 [4] file Stellist 23.12.28 3 3353
63653 소식 로켓배송, 드디어 돈벌기 시작했다 [7] 뉴스봇 22.05.13 5 3349
63652 소식 퀄컴 스냅드래곤8+ Gen1 벤치 (vs 갤S22U) [5] file Stellist 22.05.20 4 3336
63651 소식 올해 스마트폰 출하량 13.6억대 전망…작년보다 3%↓ 프로입털러 22.06.03 0 3332
63650 소식 애플 페이 컨트리 리더 (한국&일본) 채용 공고 [11] file 프로입털러 22.06.05 11 3323

스킨 기본정보

colorize02 board
2017-03-02
colorize02 게시판

확장 변수

1. 게시판 기본 설정

게시판 타이틀 하단에 출력 됩니다.

일반 게시판, 리스트 게시판, 갤러리 게시판에만 해당

2. 글 목록

기본 게시판, 일반 게시판, 썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

썸네일 게시판만 해당

3. 갤러리 설정

4. 글 읽기 화면

기본 10명 (11명 일 경우, XXXXX 외 1명으로 표시)

5. 댓글 설정

일정 수 이상의 추천을 받은 댓글에 표시를 합니다.

6. 글 쓰기 화면 설정

글 쓰기 폼에 미리 입력해 놓을 문구를 설정합니다.