![]() |
Ant Group của Jack Ma gia nhập thì trường AI giá rẻ của Trung Quốc. Ảnh: Bloomberg. |
Ant Group, công ty được hậu thuẫn bởi tỷ phú Jack Ma, đang phát triển kỹ thuật giúp cắt giảm 20% chi phí huấn luyện cho công nghệ AI của họ bằng chip bán dẫn có nguồn gốc từ Trung Quốc, theo Bloomberg.
Công ty sử dụng các vi mạch mua từ tập đoàn Alibaba và Huawei, cũng như ứng dụng phương pháp học máy Hỗn hợp chuyên gia (Mixture of Experts), từng thấy trong DeepSeek R1, để huấn luyện cho AI của họ.
Tuy cắt giảm chi phí, kết quả mà Ant Group đạt được tương đương với các công ty AI sử dụng các chip mạnh mẽ nhất hiện nay, như H800 của Nvidia.
Công ty đang sử dụng chủ yếu và dần chuyển sang các lựa chọn thay thế từ AMD và chip Trung Quốc cho các mô hình AI mới nhất của mình.
Với các phần mềm hiệu suất cao, Ant Group chi đến 6,35 triệu nhân dân tệ (880.000 USD) để huấn luyện 1.000 tỷ token. Nhưng với phương pháp tối ưu hoá, con số giảm còn 5,1 triệu tệ. Token là đơn vị thông tin mà một mô hình tiếp nhận để học hỏi về thế giới và đưa ra các phản hồi hữu ích.
Điều này đánh dấu sự gia nhập của Ant vào cuộc đua AI ngày càng tăng tốc giữa Trung Quốc và Mỹ, kể từ khi DeepSeek cho thấy các mô hình có thể được đào tạo với chi phí thấp hơn nhiều so với hàng tỷ USD của OpenAI hay Google.
H800 từ Nvidia, dù không phải chip tiên tiến nhất, vẫn là một vi xử lý mạnh mẽ và bị Mỹ cấm xuất khẩu sang Trung Quốc. Vì vậy, các công ty Trung Quốc đang nỗ lực tìm giải pháp thay thế để tăng tốc trong cuộc đua.
Trước đó, Ant Group đã công bố một nghiên cứu, cho rằng các mô hình của họ đôi khi vượt trội hơn của Meta Platforms trong một số tiêu chuẩn đánh giá nhất định. Nếu đúng như vậy, các mô hình này đã đánh dấu bước nhảy vọt của AI Trung Quốc với chi phí phát triển giảm đáng kể.
Để đạt được thành tựu này phải kể đến DeepSeek với phương pháp học máy MoE, giúp tăng hiệu suất và giảm chi phí tính toán. Cụ thể, phương pháp này giúp mô hình AI chia nhỏ vấn đề và chỉ cần kích hoạt một phần nhỏ lượng dữ liệu vừa đủ để xử lý các tác vụ.
Tuy nhiên, huấn luyện mô hình MoE cùng vẫn cần những chip hiệu suất cao như các bộ xử lý đồ hoạ (GPU) của Nvidia cung cấp. Từ tựa đề bài nghiên cứu của Ant, “phát triển mô hình MoE mà không cần GPU cao cấp”, có thể thấy công ty đang nỗ lực phá bỏ rào cản trên.
Điều này đi ngược lại chiến lược của Nvidia. CEO Jensen Huang của công ty lập luận rằng nhu cầu tính toán sẽ tiếp tục tăng ngay cả khi xuất hiện những mô hình hiệu quả hơn như DeepSeek R1.
Ông cho rằng các công ty sẽ cần những con chip mạnh mẽ hơn để tiếp tục tăng doanh thu, thay vì rẻ hơn để cắt giảm chi phí. Vì vậy, Nvidia vẫn kiên trì với chiến lược phát triển các GPU có nhiều lõi xử lý, bóng bán dẫn và dung lượng bộ nhớ cao hơn.
Trong khi đó, Ant có kế hoạch tận dụng những đột phá gần đây trong các mô hình ngôn ngữ lớn mà họ đã phát triển, bao gồm Ling-Plus và Ling-Lite, để cung cấp các giải pháp AI cho ngành công nghiệp, bao gồm chăm sóc sức khỏe và tài chính.
Công ty đã mua lại nền tảng trực tuyến của Trung Quốc Haodf.com trong 2025 nhằm tăng cường các dịch vụ trí tuệ nhân tạo trong lĩnh vực chăm sóc sức khỏe, cũng sở hữu ứng dụng trợ lý cuộc sống AI Zhixiaobao và dịch vụ tư vấn tài chính AI Maxiaocai.
Trong bài nghiên cứu, Ant cho biết Ling-Lite đạt kết quả tốt hơn so với một trong những mô hình Llama của Meta trong một tiêu chuẩn đánh giá quan trọng về khả năng hiểu tiếng Anh.
Cả Ling-Lite và Ling-Plus đều vượt trội hơn các mô hình tương đương của DeepSeek trong các bài kiểm tra về ngôn ngữ tiếng Trung.
Các mô hình Ling cũng đã được công khai mã nguồn. Ling-Lite có 16,8 tỷ tham số, Ling-Plus có 290 tỷ, được coi là khá lớn trong lĩnh vực mô hình ngôn ngữ, so với 1.800 tỷ của ChatGPT GPT-4.5, và 671 của DeepSeek R1.
Tuy nhiên, Ant đã gặp phải một số thách thức về tính ổn định trong quá trình huấn luyện. Công ty cho biết rằng ngay cả những thay đổi nhỏ trong phần cứng hoặc cấu trúc của mô hình cũng có thể dẫn đến sự gia tăng đột ngột trong tỷ lệ lỗi của mô hình.
Những câu chuyện ít được biết về tỷ phú công nghệ
Tủ sách Công nghệ đem đến cho độc giả những cuốn sách hay nhất, đúc kết hàng trăm giờ chia sẻ của Steve Jobs, Elon Musk và những người liên quan. Chúng chứa đựng những câu chuyện công nghệ thú vị, ít khi được bật mí.