CNET Korea 뉴스 비즈니스

AWS, 딥러닝·생성형 AI 위한 '트레이니움 2 인스턴스' 선봬

기존 GPU 기반 EC2 인스턴스 대비 30~40% 향상된 가격 대비 성능 제공

신동민 기자

2024년 12월 04일 02:31 PM

AWS가 딥러닝 및 생성형 AI를 위한 트레이니움2 인스턴스를 출시했다. 사진은 AWS 로고 (사진=AWS)

(씨넷코리아=신동민 기자) 아마존웹서비스(이하 AWS)는 오늘 AWS 리인벤트(re:Invent)에서 AWS 트레이니움2(AWS Trainium2) 칩 기반의 아마존 EC2(Amazon EC2) 인스턴스를 공식 출시했다고 4일 밝혔다. 또한, AWS는 거대언어모델(LLM) 및 파운데이션 모델(FM)의 학습과 추론을 지원하는 트레이니움2 울트라서버(Trn2 UltraServers)와 차세대 트레이니움3(Trainium3) 칩도 함께 공개했다.

데이비드 브라운(David Brown) AWS 컴퓨팅 및 네트워킹 부문 부사장은 "트레이니움2는 AWS가 개발한 칩 중 가장 강력한 성능을 자랑하며, 대규모 및 최첨단 생성형 AI 워크로드를 지원하기 위해 설계되었다. 이 칩은 학습과 추론 모두에서 최고의 가격 대비 성능을 제공한다"며, "매개변수가 수조 개에 달하는 모델이 등장하면서, 고객들에게 대규모 모델을 효율적으로 학습하고 운영할 수 있는 새로운 접근 방식이 필요해졌다. Trn2 울트라서버는 AWS에서 가장 빠른 학습 및 추론 성능을 제공하며, 모든 규모의 조직이 세계 최대 모델을 더 빠르고 비용 효율적으로 학습하고 배포할 수 있도록 돕는다."딥러닝과 생성형 AI를 위한 아마존 EC2 인스턴스 중 최고 성능을 자랑하는 트레이니움2AWS의 Trn2 인스턴스는 기존 GPU 기반 EC2 인스턴스 대비 30~40% 뛰어난 가격 대비 성능을 제공한다. 단일 Trn2 인스턴스는 16개의 트레이니움2 칩을 초고속 뉴런링크(NeuronLink) 기술로 연결해 20.8 피크 페타플롭스의 연산 성능을 제공하며, 이는 수십억 개의 매개변수를 가진 대규모 모델의 학습 및 배포에 최적화되어 있다.

더 많은 컴퓨팅 능력이 필요한 대규모 모델의 경우, Trn2 울트라서버는 단일 Trn2 인스턴스의 한계를 넘어 학습 규모를 확장함으로써 학습 시간을 단축하고, 제품 출시 속도를 가속화하며, 모델 정확도를 개선하기 위한 신속한 반복을 가능하게 한다.

AWS는 앤스로픽과 협력해 '프로젝트 레이니어(Project Rainier)'로 명명된 EC2 울트라클러스터를 구축하고 있다. 이 클러스터는 수십만 개의 트레이니움2 칩을 포함하며, 3세대 저지연 페타비트(Petabit) 규모의 AWS 엘라스틱 패브릭 어댑터(EFA) 네트워킹을 통해 분산 모델 학습을 확장하며, 현재 세대 AI 모델 훈련에 사용된 엑사플롭스의 5배 이상 성능을 제공할 것으로 기대된다.

AWS는 차세대 AI 학습 칩인 트레이니움3를 공개했다. 트레이니움3는 3나노미터 공정 노드로 제작된 최초의 AWS 칩으로 성능, 전력 효율성, 밀도에 대한 새로운 기준을 제시할 것으로 예상된다. 트레이니움3 기반 울트라서버는 Trn2 울트라서버 대비 4배 더 높은 성능을 제공할 것으로 예상되며, 이를 통해 고객은 모델 구축 시 더욱 빠르게 반복하고 배포 시 우수한 실시간 성능을 제공할 수 있다. 최초의 트레이니움3 기반 인스턴스는 2025년 말 출시될 예정이다.AWS 뉴런(AWS Neuron) 소프트웨어를 통해 트레이니움2의 성능을 극대화할 수 있도록 지원뉴런 SDK(Neuron SDK)는 트레이니움 칩에서 모델을 실행할 수 있도록 최적화하는 컴파일러, 런타임 라이브러리, 도구를 제공한다. 이를 통해 개발자는 모델을 최적화하여 트레이니움 칩에서 최적의 성능을 발휘할 수 있다.