DeepSeek âm thầm ra mắt "cơn ác mộng thực sự" cho OpenAI: Mô hình AI mới miễn phí, chạy được ngay trên Mac Studio

Với việc cấp phép sử dụng miễn phí cho mục đích thương mại, mô hình AI mới của DeepSeek là cơn ác mộng thực sự đối với OpenAI.

Trong một động thái bất ngờ, công ty khởi nghiệp AI Trung Quốc DeepSeek vừa lặng lẽ phát hành mô hình ngôn ngữ lớn mới có tên DeepSeek-V3-0324 trên nền tảng Hugging Face.

Sự xuất hiện của mô hình 641Gb này đang tạo ra làn sóng chấn động trong ngành công nghiệp trí tuệ nhân tạo không chỉ vì khả năng ấn tượng mà còn bởi cách thức triển khai độc đáo, theo đúng phong cách "âm thầm nhưng có tác động lớn" đặc trưng của DeepSeek.

DeepSeek âm thầm ra mắt "cơn ác mộng thực sự" cho OpenAI: Mô hình AI mới miễn phí, chạy được ngay trên Mac Studio- Ảnh 1.

Điểm nổi bật nhất trong lần ra mắt này chính là việc mô hình được phát hành dưới giấy phép MIT, cho phép sử dụng miễn phí cho mục đích thương mại. Điều đáng chú ý nhất là theo những báo cáo ban đầu, DeepSeek-V3-0324 có thể chạy trực tiếp trên phần cứng tiêu dùng cao cấp như Apple Mac Studio với chip M3 Ultra.

Theo nhà nghiên cứu AI Awni Hannun, "DeepSeek-V3-0324 mới trong phiên bản 4-bit chạy ở tốc độ trên 20 token/giây trên M3 Ultra 512GB với mlx-lm!" Mặc dù với mức giá 9.499 USD, Mac Studio có thể vượt ra ngoài định nghĩa thông thường về "phần cứng tiêu dùng", nhưng khả năng chạy một mô hình khổng lồ cục bộ như vậy đánh dấu một bước ngoặt quan trọng, tách biệt với yêu cầu trung tâm dữ liệu thường gắn liền với AI tiên tiến.

DeepSeek âm thầm ra mắt "cơn ác mộng thực sự" cho OpenAI: Mô hình AI mới miễn phí, chạy được ngay trên Mac Studio- Ảnh 2.

Mô hình AI mới DeepSeek V3 có thể chạy offline ngay trên Mac Studio với tốc độ 20 token/giây

Về mặt công nghệ, DeepSeek đã tạo ra một số đột phá đáng kể trong mô hình mới này. Thay vì theo đuổi phương pháp truyền thống, DeepSeek-V3-0324 áp dụng kiến trúc "mixture-of-experts" (MoE) vô cùng sáng tạo, tái định nghĩa cách thức hoạt động của các mô hình ngôn ngữ lớn.

Trong khi các mô hình AI thông thường kích hoạt toàn bộ tham số cho mọi tác vụ, cách tiếp cận của DeepSeek chỉ sử dụng khoảng 37 tỷ trong tổng số 685 tỷ tham số của nó cho từng tác vụ cụ thể. Sự kích hoạt có chọn lọc này đại diện cho một bước đột phá về hiệu quả mô hình, cho phép đạt được hiệu suất tương đương với các mô hình lớn hơn nhiều trong khi giảm đáng kể yêu cầu tính toán.

Không dừng lại ở đó, mô hình này còn tích hợp hai công nghệ đột phá khác: Multi-Head Latent Attention (MLA) và Multi-Token Prediction (MTP). MLA nâng cao khả năng duy trì ngữ cảnh của mô hình trong các đoạn văn bản dài, giúp AI hiểu sâu hơn về nội dung được xử lý.

Trong khi đó, MTP cho phép mô hình tạo ra nhiều token mỗi bước thay vì phải tiến hành từng token một như phương pháp truyền thống. Kết hợp lại, những đổi mới này đã tăng tốc độ đầu ra lên gần 80%, đạt được hiệu suất đáng kinh ngạc ngay cả trên phần cứng tiêu dùng.

DeepSeek âm thầm ra mắt "cơn ác mộng thực sự" cho OpenAI: Mô hình AI mới miễn phí, chạy được ngay trên Mac Studio- Ảnh 3.

Các bài test cho thấy khả năng xử lý của DeepSeek V3 so với các đối thủ khác

Nhờ những đột phá này, DeepSeek-V3-0324 đang nhanh chóng được xem là một cơn ác mộng kinh hoàng đối với OpenAI vì nhiều lý do. Trước hết, mô hình này thách thức trực tiếp mô hình kinh doanh độc quyền của OpenAI.

Trong khi OpenAI giữ các mô hình của mình sau hàng rào trả phí, DeepSeek lại cung cấp công nghệ tương đương hoàn toàn miễn phí với giấy phép nguồn mở. Hơn thế nữa, khả năng chạy trên phần cứng tiêu dùng cao cấp đe dọa đến mô hình dịch vụ đám mây của OpenAI. Nếu người dùng có thể chạy AI tiên tiến cục bộ trên máy tính của họ, nhu cầu đối với các API trả phí sẽ giảm đáng kể.

Đáng chú ý hơn, thời điểm và đặc điểm của DeepSeek-V3-0324 cho thấy mạnh mẽ rằng nó sẽ đóng vai trò là nền tảng cho DeepSeek-R2, một mô hình tập trung vào lập luận được cải tiến dự kiến ra mắt trong hai tháng tới. Điều này tuân theo mô hình đã được thiết lập của DeepSeek, nơi các mô hình cơ sở thường đi trước các mô hình lập luận chuyên biệt vài tuần.

Nếu DeepSeek-R2 đi theo quỹ đạo được thiết lập bởi R1, nó có thể thách thức trực tiếp GPT-5, mô hình hàng đầu tiếp theo của OpenAI được đồn đoán sẽ phát hành trong những tháng tới. Sự tương phản giữa cách tiếp cận đóng, được tài trợ mạnh mẽ của OpenAI và chiến lược mở, hiệu quả về tài nguyên của DeepSeek đại diện cho hai tầm nhìn cạnh tranh hoàn toàn khác biệt về tương lai của AI.

Điều quan trọng hơn cả, cách tiếp cận của DeepSeek đối với phát triển và phân phối AI không chỉ đơn thuần là một thành tựu kỹ thuật mà còn thể hiện một tầm nhìn cơ bản khác biệt về cách công nghệ tiên tiến nên lan truyền trong xã hội. Bằng cách cung cấp AI tiên tiến miễn phí theo cấp phép cho phép, DeepSeek đang thúc đẩy sự đổi mới theo cấp số nhân mà các mô hình đóng vốn có hạn chế.

DeepSeek âm thầm ra mắt "cơn ác mộng thực sự" cho OpenAI: Mô hình AI mới miễn phí, chạy được ngay trên Mac Studio- Ảnh 4.

Khoảng cách về AI giữa Mỹ và Trung Quốc đã được thu hẹp lại đáng kể

Chiến lược này đang nhanh chóng thu hẹp khoảng cách AI được nhận định giữa Trung Quốc và Mỹ. Trong khi chỉ vài tháng trước, hầu hết các nhà phân tích ước tính Trung Quốc tụt hậu 1-2 năm so với khả năng AI của Mỹ, thì ngày nay, khoảng cách đó đã thu hẹp đáng kể xuống còn khoảng 3-6 tháng, với một số lĩnh vực thậm chí đang tiếp cận mức ngang bằng hoặc dẫn đầu.

Tình hình này gợi nhớ đến tác động của Android đối với hệ sinh thái di động nhiều năm trước. Quyết định của Google làm cho Android có sẵn miễn phí đã tạo ra một nền tảng cuối cùng đạt được thị phần toàn cầu thống trị. Tương tự như vậy, các mô hình AI nguồn mở như DeepSeek-V3-0324 có thể sẽ cạnh tranh thành công với các hệ thống đóng nhờ vào sự phổ biến rộng rãi và sức mạnh đổi mới tập thể từ hàng nghìn nhà phát triển trên toàn cầu.

Khi DeepSeek-V3-0324 bắt đầu xuất hiện trong các phòng thí nghiệm nghiên cứu và máy trạm nhà phát triển trên toàn thế giới, cuộc cạnh tranh không còn đơn thuần là về việc ai có thể xây dựng AI mạnh mẽ nhất, mà đã chuyển sang việc ai có thể trao quyền cho nhiều người nhất để xây dựng với AI. Trong bối cảnh này, sự phát hành lặng lẽ nhưng đầy ấn tượng của DeepSeek đã nói lên rất nhiều điều về tương lai của trí tuệ nhân tạo. Có lẽ, công ty chia sẻ công nghệ của mình một cách tự do nhất cuối cùng sẽ là người nắm giữ ảnh hưởng lớn nhất đối với cách AI định hình lại thế giới của chúng ta trong những năm sắp tới.