Giải mã thành công của DeepSeek, công cụ AI miễn phí của Trung Quốc vượt mặt “tiền bối” với chi phí đầu tư chỉ bằng 1/100

Những ngày cận Tết vừa qua, lĩnh vực công nghệ rung lên từng hồi sau mỗi mẩu tin tức về một công cụ AI có tên DeepSeek. Những con số ấn tượng về chi phí đầu tư cũng như hiệu năng của nó khiến Google, Microsoft lẫn OpenAI, thậm chí cả giới … đầu tư chứng khoán vào ngành công nghệ đứng ngồi không yên.

Không ngoa, khi mô tả sự xuất hiện của DeepSeek như một đòn đánh mạnh vào lĩnh vực công nghệ - tại Mỹ nói riêng và trên thị trường toàn cầu nói chung. Một đòn mạnh tới mức đánh thức những tập đoàn đang nhăm nhe chiếm thế thượng phong trong cuộc đua tới AGI - trí tuệ nhân tạo tổng quát.

DeepSeek đang nhăm nhe “lấy mất cái Tết” của những ChatGPT, Gemini hay Claude - những công cụ AI vẫn đang mưa làm gió trong lĩnh vực công nghệ những tháng trở lại đây. Các doanh nghiệp công nghệ phương Tây choáng váng trước bước đại nhảy vọt của công cụ AI tới từ phương Đông, và đây là lý do tại sao.

Giải mã thành công của DeepSeek, công cụ AI miễn phí của Trung Quốc vượt mặt “tiền bối” với chi phí đầu tư chỉ bằng 1/100- Ảnh 1.

Chiến thắng “chấn động địa cầu” của DeepSeek

Trong ngày công bố, công ty DeepSeek quảng bá phần mềm AI của mình là một công cụ “miễn phí” và “mã nguồn mở”, và chỉ từng ấy dữ kiện là đủ khiến người dùng để tâm tới phần mềm xuất xứ Trung Quốc.

Được phát triển bởi một phòng nghiên cứu AI có tên DeepSeek, mô hình AI vượt qua hàng loạt bài thử nghiệm của bên thứ ba, và đạt điểm số cao hơn những công cụ AI đang có trên thị trường như ChatGPT của OpenAI hay Claude của Anthropic.

Cả hai phiên bản mới được ra mắt, DeepSeek-V3 - một mô hình ngôn ngữ với 671 tỷ tham số và DeepSeek-R1 - một mô hình AI lý luận tiên tiến, đều vượt mặt những cái tên sừng sỏ trong lĩnh vực nghiên cứu trí tuệ nhân tạo. Dưới đây là những gì DeepSeek-V3 đang nói về chính mình:

Giải mã thành công của DeepSeek, công cụ AI miễn phí của Trung Quốc vượt mặt “tiền bối” với chi phí đầu tư chỉ bằng 1/100- Ảnh 2.

Trong báo cáo nghiên cứu của mình, DeepSeek công bố một biểu đồ gây chấn động. Công cụ DeepSeek-V3 vượt qua những đối thủ sừng sỏ như Llama-3.1 của Meta, GPT-4o của OpenAI, Claude-3.5 của Anthropic trong các bài thử quan trọng: một đề toán gồm 500 câu (MATH 500), một bài đánh giá khả năng giải toán của AI (AIME 2024), bộ đề trong cuộc thi lập trình (Codeforces), và một bài thử phát hiện và sửa lỗi code (SWE-bench Verified).

Giải mã thành công của DeepSeek, công cụ AI miễn phí của Trung Quốc vượt mặt “tiền bối” với chi phí đầu tư chỉ bằng 1/100- Ảnh 3.

Cùng lúc đó, mô hình DeepSeek-R1 còn sở hữu một biểu đồ ấn tượng hơn, khi hiệu năng của nó ngang ngửa với mô hình OpenAI-o1 trong mảng toán học, lập trình và lý luận.

Giải mã thành công của DeepSeek, công cụ AI miễn phí của Trung Quốc vượt mặt “tiền bối” với chi phí đầu tư chỉ bằng 1/100- Ảnh 4.

Tuy nhiên, điểm số nói trên chỉ lý giải một phần chiến thắng áp đảo của DeepSeek. Theo báo cáo từ chính startup Trung Quốc, họ chỉ tiêu tốn 5,576 triệu USD để phát triển thành công mô hình DeepSeek-V3 với sức mạnh vượt trội, đồng thời vẫn thể mở miễn phí cho người dùng toàn cầu.

Để so sánh, OpenAI tiêu tới 5,4 triệu USD/năm để duy trì hoạt động, và startup này ước tính họ sẽ phải chi tới 37,5 triệu USD để duy trì hoạt động vào năm 2029. Cuối năm 2023, Microsoft đã “bơm” cho OpenAI tới 13 tỷ USD để phát triển ChatGPT và các công cụ liên quan khác. Google dự kiến chi phí tài sản cố định của năm 2024 chạm ngưỡng 51 tỷ USD, không ít trong số đó dành cho công tác AI.

Và điều khiến giới công nghệ Mỹ vừa xấu hổ vừa tức giận, là DeepSeek có thể đạt được những thành tựu trên trong khi Trung Quốc vẫn đang bị Mỹ áp lệnh cấp nhập khẩu các dòng GPU cao cấp dùng trong huấn luyện AI, như H100 và H200.

Để đáp ứng các quy định xuất khẩu, NVIDIA phát triển các phiên bản thay thế như H800 và A800, nhưng chúng cũng đã nhanh chóng bị cấm bán sang Trung Quốc vào năm 2023. Dù vậy, DeepSeek vẫn có trong tay một lượng GPU đáng kể và qua đó, thiết kế được những mô hình DeepSeek-V3 mang tính đột phá.

Theo tài liệu của DeepSeek, doanh nghiệp Trung Quốc chỉ cần tới 2.788.000 giờ huấn luyện trên GPU H800 (tương đương 5,576 triệu USD với chi phí 2 USD/giờ sử dụng GPU), là có được mô hình DeepSeek-V3 như người dùng đang sử dụng.

Giải mã thành công của DeepSeek

Tạm gác sức mạnh phần cứng qua một bên để tìm hiểu về nguyên lý hoạt động của DeepSeek.

Các công cụ AI, hay chính xác hơn là các mô hình ngôn ngữ lớn (Large Language Model - LLM) thông dụng sử dụng cơ chế tinh chỉnh có giám sát (Supervised Fine-Tuning - SFT) để huấn luyện.

Nói một cách đơn giản, chuyên gia đưa cho một mô hình AI một loạt bài toán mẫu và giải thích từng bước giải, sau đó đánh giá kết quả bài giải thử của mô hình bằng một chuyên gia hoặc một mô hình AI khác.

Tuy nhiên, mô hình AI của DeepSeek không ứng dụng cơ chế này. Lấy ví dụ với DeepSeek-R1, mô hình này không dùng SFT mà thực hiện học tăng cường (Reinforcement Learning - RL) để hoàn thiện câu trả lời của mình.

DeepSeek-R1 sẽ không được biết trước lời giải và cách giải của một bài toán, mà sẽ liên tục giải bằng nhiều cách, được chấm điểm cao cho mỗi cách giải hay và qua đó tìm cách tối ưu hóa cách giải theo thời gian để tiếp tục nhận điểm cao. Những vòng lặp này sẽ giúp những câu trả lời của DeepSeek-R1 ngày càng chính xác hơn, đó là ý nghĩa của khái niệm “tăng cường” trong Reinforcement Learning.

Giải mã thành công của DeepSeek, công cụ AI miễn phí của Trung Quốc vượt mặt “tiền bối” với chi phí đầu tư chỉ bằng 1/100- Ảnh 6.

Thế nhưng cách thiết kế mô hình AI không phải chìa khóa thành công của DeepSeek, mà cách ra mắt mô hình đi kèm hai từ khóa “miễn phí” và “mã nguồn mở” mới là những thứ tạo nên cơn sốt DeepSeek, và khiến Thung lũng Silicon đứng ngồi không yên.

Đơn vị đứng sau DeepSeek, công ty quản lý quỹ đầu tư kỹ thuật (quant fund) High-Flyer còn không phải một doanh nghiệp tập trung vào nghiên cứu AI. Trực thuộc High-Flyer, công ty con DeepSeek tạo ra các mô hình AI DeepSeek với mục đích tối ưu nhất có thể, chi phí thấp nhất có thể, để ứng dụng dễ dàng ứng dụng vào sản xuất trên quy mô lớn.

Mã nguồn của cả hai phiên bản DeepSeek-V3 và DeepSeek-R1, đều đã được công bố trên GitHub, bạn có thể tự tải về máy để sử dụng. DeepSeek cũng đã công bố API để người dùng tự do khai thác. Bản thân ứng dụng AI DeepSeek cũng miễn phí, đi kèm lời quảng bá là mạnh ngang ngửa mô hình o1 của OpenAI. Từng ấy lý do là quá đủ để DeepSeek thành công trong lòng người hâm mộ.

Giải mã thành công của DeepSeek, công cụ AI miễn phí của Trung Quốc vượt mặt “tiền bối” với chi phí đầu tư chỉ bằng 1/100- Ảnh 7.

Thực tế mà nói, hiện chúng ta cũng chưa rõ chìa khóa thành công của DeepSeek thực sự nằm ở đâu (nếu biết, thì doanh nghiệp AI nào cũng đã thành công rồi!) Meta, OpenAI hay Google, Microsoft đang ráo riết “bóc tách” các báo cáo mà DeepSeek đăng tải, hòng tìm được cách công ty Trung Quốc huấn luyện được AI với giá rẻ.

Khó có thể khẳng định những tập đoàn phương Tây sẽ công bố những gì họ tìm được, nhưng có thể chắc chắn một điều: việc DeepSeek làm - là công bố mã nguồn mở, cung cấp API - sẽ khiến những mô hình AI trong tương lai rẻ hơn, qua đó dễ tiếp cận hơn, để rồi đạt được mục đích tối thượng của một sản phẩm công nghệ thành công, ấy là tới tay tất cả mọi người.

GPS, internet hay smartphone là những sản phẩm như thế. Những mong đột phá tiếp theo có thể tiếp cận người dùng với giá rẻ chính là trí tuệ nhân tạo.

Kim