IT·과학 산업 경제
정치 사회 문화·생활
전국 글로벌 연예·스포츠
오피니언 포토·영상 기획&시리즈
스페셜&이벤트 포럼 리포트 아이뉴스TV

'에너지 하마' AI⋯저전력에 높은 성능 갖춘 핵심 기술 나왔다

본문 글자 크기 설정
글자크기 설정 시 다른 기사의 본문도 동일하게 적용됩니다.

KAIST 연구팀, 관련 기술 개발

[아이뉴스24 정종오 기자] 인공지능(AI)은 대규모언어모델을 학습시키는 게 기본이다. 이 때문에 많은 메모리 용량과 수만 개의 GPU가 필요하다. 이를 유지하기 위해 막대한 에너지를 사용한다. AI를 ‘에너지 먹는 하마’라고 부르는 이유다.

국내 연구팀이 저전력으로 고성능을 유지할 수 있는 NPU(신경망처리장치) 핵심 기술을 개발했다.

오픈AI 챗GPT4, 구글 Gemini 2.5 등 최신 생성형AI 모델들은 높은 메모리 대역폭(Bandwidth)뿐 아니라 많은 메모리 용량(Capacity)를 필요로 한다. 마이크로소프트, 구글 등 생성형AI 클라우드 운영 기업들이 엔비디아 GPU를 수십만 장씩 구매하는 이유다.

AI는 대용량 메모리와 많은 GPU를 기본으로 한다. 많은 에너지가 필요하다. 국내 연구팀이 저전력으로 높은 성능을 보여주는 핵심 기술을 개발했다. [사진=gemini]
AI는 대용량 메모리와 많은 GPU를 기본으로 한다. 많은 에너지가 필요하다. 국내 연구팀이 저전력으로 높은 성능을 보여주는 핵심 기술을 개발했다. [사진=gemini]

이런 고성능 AI 인프라 구축의 핵심 난제를 해소할 방안으로 국내 연구팀이 최신 GPU와 비교했을 때 약 44% 낮은 전력 소모에도 평균 60% 이상 생성형 AI 모델의 추론 성능을 향상할 NPU(신경망처리장치) 핵심 기술을 개발하는데 성공했다.

한국과학기술원(KAIST, 총장 이광형)은 전산학부 박종세 교수 연구팀과 하이퍼엑셀(전기및전자공학부 김주영 교수 창업기업)이 연구 협력을 통해 챗GPT와 같은 생성형AI 클라우드에 특화된 고성능·저전력의 NPU(신경망처리장치) 핵심기술을 개발했다고 4일 발표했다.

연구팀이 제안한 기술은 컴퓨터 아키텍처 분야에서 최고 권위를 자랑하는 국제 학회인 ‘2025 국제 컴퓨터구조 심포지엄(International Symposium on Computer Architecture, ISCA 2025)’에 채택됐다.

이번 연구의 핵심은 추론 과정에서 경량화를 통해 정확도 손실을 최소화하면서도 메모리 병목 문제를 해결해 대규모 생성형AI 서비스의 성능을 개선하는 것이다. 이번 연구는 AI인프라의 핵심 구성요소인 AI반도체와 AI시스템SW를 통합 설계했다는 점에서 그 가치를 높게 인정받았다.

기존 GPU 기반 AI 인프라는 높은 메모리 대역폭과 메모리 용량 요구를 충족하기 위해 많은 GPU 디바이스가 필요하다. 이번 기술은 메모리 사용의 대부분을 차지하는 KV 캐시의 양자화를 통해 적은 수의 NPU 디바이스만으로 동일 수준의 AI 인프라를 구성할 수 있다. 생성형 AI 클라우드 구축 비용을 크게 절감할 수 있다.

연구팀은 기존 NPU 아키텍처의 연산 로직을 변경하지 않으면서 메모리 인터페이스와 통합될 수 있도록 설계했다. 이번 하드웨어 아키텍처 기술은 제안된 양자화 알고리즘을 구현할 뿐만 아니라 제한된 메모리 대역폭과 용량을 효율적으로 활용하기 위한 페이지 단위 메모리 관리 기법, 양자화된 KV 캐시에 최적화된 새로운 인코딩 기법 등을 개발했다.

최신 GPU 대비 비용·전력 효율성이 우수한 NPU 기반 AI 클라우드를 구성할 경우 NPU의 고성능, 저전력 특성을 활용해 운영 비용 역시 크게 절감할 수 있을 것으로 기대된다.

박종세 교수는 “하이퍼엑셀과 공동연구를 통해 생성형AI 추론 경량화 알고리즘에서 그 해법을 찾았고 ‘메모리 문제’를 해결할 수 있는 NPU 핵심기술 개발에 성공했다”며 “이번 기술을 통해 추론의 정확도를 유지하면서 메모리 요구량을 줄이는 경량화 기법과 이에 최적화된 하드웨어 설계를 결합해 최신 GPU 대비 평균 60% 이상 성능이 향상된 NPU를 구현했다” 고 말했다.

이번 연구(논문명: Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization)는 KAIST 김민수 박사과정 학생과 하이퍼엑셀 홍성민 박사가 공동 제1 저자로 지난 6월 21일부터 6월 25일까지 일본 도쿄에서 열린 ‘2025 국제 컴퓨터구조 심포지엄(ISCA)’에 발표됐다.

/정종오 기자(ikokid@inews24.com)



주요뉴스


공유하기

주소가 복사되었습니다.
원하는 곳에 붙여넣기 해주세요.
alert

댓글 쓰기 제목 '에너지 하마' AI⋯저전력에 높은 성능 갖춘 핵심 기술 나왔다

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
댓글 바로가기


뉴스톡톡 인기 댓글을 확인해보세요.



TIMELINE



포토 F/O/C/U/S