Amazon ‘sống chết’ với chip: Tạo siêu máy tính AI với hàng trăm nghìn chip tự sản xuất, tương lai sẽ sớm vượt Nvidia

Đây là một trong những nỗ lực mới nhất của phòng thiết kế chip AI có trụ sở tại Austin, Texas.

Bộ phận điện toán đám mây của Amazon, Amazon Web Services, vừa công bố kế hoạch cho một “Ultracluster” - siêu máy tính AI khổng lồ với hàng trăm nghìn chip Trainium do công ty tự sản xuất. Đây là một trong những nỗ lực mới nhất của phòng thiết kế chip AI có trụ sở tại Austin, Texas.

Phía Amazon Web Services cũng vừa công bố một máy chủ mới có tên là Ultraserver bao gồm 64 chip kết nối tại hội nghị thường niên diễn ra tại Las Vegas. Apple là một trong những khách hàng mới nhất của họ.

Sự kiện nhấn mạnh cam kết của AWS đối với Trainium - thứ công ty đang tự định vị là giải pháp thay thế khả thi cho các đơn vị xử lý đồ họa do gã khổng lồ chip Nvidia bán ra. Theo công ty nghiên cứu International Data Corp., thị trường chất bán dẫn AI ước tính trị giá 117,5 tỷ USD vào năm 2024 và dự kiến đạt 193,3 tỷ USD vào cuối năm 2027. Nvidia nắm giữ khoảng 95% thị trường chip AI, theo nghiên cứu tháng 12 của IDC.

“Ngày nay, thực sự chỉ có một lựa chọn về GPU là Nvidia”, Matt Garman, giám đốc điều hành của Amazon Web Services cho biết. “Chúng tôi nghĩ rằng khách hàng sẽ đánh giá cao việc có nhiều lựa chọn”.

Một phần quan trọng trong chiến lược AI của Amazon là cập nhật silicon tùy chỉnh để giảm chi phí AI cho khách hàng doanh nghiệp, đồng thời giúp công ty kiểm soát nhiều hơn chuỗi cung ứng của mình. AWS theo đó sẽ ít phụ thuộc hơn vào Nvidia - một trong những đối tác thân thiết nhất của mình.

Không thiếu các công ty muốn giành được thị phần từ Nvidia, bao gồm các công ty khởi nghiệp về chip AI như Groq, Cerebras Systems và SambaNova Systems. Các đối tác đám mây của Amazon, Microsoft và Google, cũng đang tự xây dựng chip cho AI và hướng tới mục tiêu giảm sự phụ thuộc vào Nvidia.

Trước đó, Amazon đã tự phát triển phần cứng cho khách hàng từ trước năm 2018, khi công ty này phát hành một bộ xử lý trung tâm có tên Graviton dựa trên kiến trúc bộ xử lý từ nhà thiết kế chip Arm.

Trọng tâm hiện tại của AWS nằm ở Austin, Texas, nơi đặt phòng thí nghiệm chip AI do Annapurna Labs điều hành. Phòng thí nghiệm này đã ở đây kể từ những ngày đầu “Chúng tôi thiết kế chip, lõi, máy chủ và giá đỡ cùng một lúc. Chúng tôi không đợi chip sẵn sàng rồi mới thiết kế bo mạch xung quanh nó”, Rami Sinno, giám đốc kỹ thuật phòng thí nghiệm cho biết. “Nó cho phép nhóm làm việc cực kỳ, cực kỳ nhanh chóng”.

AWS ra mắt Inferentia vào năm 2018, một chip máy học chuyên dụng cho suy luận. James Hamilton, phó chủ tịch cấp cao kiêm kỹ sư xuất sắc của Amazon cho biết, nhóm đã theo đuổi suy luận trước tiên vì đây là nhiệm vụ dễ hơn so với đào tạo.

Đến năm 2020, Annapurna sẵn sàng triển khai Trainium, con chip đầu tiên để khách hàng đào tạo các mô hình AI. Năm ngoái, Amazon công bố chip Trainium2 và cho biết hiện đang làm việc trên các máy chủ dựa trên Trainium3 và Trainium3, mạnh hơn gấp 4 lần so với các máy chủ dựa trên Trainium2.

Khi các mô hình AI và tập dữ liệu ngày càng lớn, chip và cụm chip cung cấp năng lượng cho chúng cũng tỷ lệ thuận. Các gã khổng lồ công nghệ không chỉ mua thêm chip từ Nvidia, tự thiết kế chip, mà còn cố gắng đóng gói càng nhiều chip càng tốt.

Ultraserver của Amazon liên kết 64 chip thành 1, kết hợp 4 máy chủ, mỗi máy chủ chứa 16 chip Tranium. Một số máy chủ GPU Nvidia, ngược lại, chỉ chứa 8 chip.

Để liên kết chúng lại với nhau để hoạt động như một máy chủ, bí quyết của Amazon là mạng lưới của mình: tạo ra một công nghệ NeuronLink có thể giúp cả 4 máy chủ tương tác với nhau.

Tuy nhiên, thông điệp không hoàn toàn là “Chọn chúng tôi hoặc Nvidia”. Amazon chỉ đơn giản muốn khẳng định rằng mình có thể gắn bất kỳ sự kết hợp phần cứng nào yêu thích trên nền tảng đám mây.

“Amazon đang dẫn đầu toàn ngành về công nghệ. Mảng kinh doanh điện toán AWS của chúng tôi có nhiều khách hàng, đối tác. Chúng tôi cũng đang đầu tư vào trí tuệ nhân tạo trên mọi lĩnh vực”, đại diện Amazon cho biết.

Eiso Kant, đồng sáng lập kiêm giám đốc công nghệ của công ty khởi nghiệp về mã hóa AI Poolside, cho biết công ty này tiết kiệm được khoảng 40% chi phí so với việc chạy các mô hình AI trên GPU của Nvidia. Tuy nhiên, nhược điểm là công ty khởi nghiệp này cần dành nhiều thời gian hơn cho các kỹ sư để phần mềm chip liên quan của Amazon hoạt động.

Trước đó, Amazon tuyên bố khoản đầu tư 500 triệu USD cho dự án X-Energy, chuyên phát triển lò phản ứng hạt nhân cỡ vừa để cung cấp năng lượng sạch cho các trung tâm dữ liệu của mình. AWS đang kinh doanh tốt nhờ sự bùng nổ của trí thông minh nhân tạo (AI), song vẫn đòi hỏi những trung tâm dữ liệu lớn cần lượng điện khổng lồ để vận hành.

“Chúng tôi cần các giải pháp thông minh có thể giúp đáp ứng nhu cầu năng lượng ngày càng tăng, đồng thời giải quyết vấn đề biến đổi khí hậu. Công nghệ của X-energy sẽ đóng vai trò không thể thiếu trong việc giúp đạt được điều này và là một bước quan trọng trong nỗ lực của Amazon nhằm đạt được cam kết về chống biến đổi khí hậu khi đạt mức phát thải ròng bằng 0 vào năm 2040”, phó chủ tịch trung tâm dữ liệu toàn cầu của Amazon, ông Kevin Miller cho biết.

Theo BI, Amazon đang ráo riết tìm cách tận dụng sự bùng nổ của chatbot AI, trong đó có việc đẩy nhanh năng suất, bắt đầu các dự án AI mới và thúc đẩy các dịch vụ điện toán đám mây. Một số nhân viên thậm chí còn đề xuất tích hợp ChatGPT vào quy trình sáng tạo của Amazon.

Theo: WSJ, BI