Kỹ thuật bị lãng quên 10 năm của Google khiến DeepSeek tận dụng vươn lên cướp việc của con người với giá rẻ mạt như thế nào?

Từ một kỹ thuật bị coi thường vào năm 2015 của Google, DeepSeek đã tận dụng để ngày càng hoàn thiện hơn với chi phí đào tạo rẻ mạt.

Đầu năm 2025, việc Trung Quốc ra mắt DeepSeek đã khiến toàn thị trường xôn xao khi có mô hình cạnh tranh với OpenAI nhưng chi phí đào tạo lại chỉ khoảng 5 triệu USD. Thông tin này đã khiến thị trường hoảng loạn và tổng vốn hóa Nvidia bốc hơi 600 tỷ USD do lo ngại nhu cầu chip sẽ giảm.

Tờ Business Insider (BI) cho hay chi phí đào tạo các mô hình trí thông minh nhân tạo (AI) đang ngày càng giảm như kiểu DeepSeek là nhờ kỹ thuật "chắt lọc tri thức" (Knowledge Distillation).

Đây là một kỹ thuật học máy dùng để chuyển giao kiến thức từ một mô hình lớn, phức tạp (Teacher Model-mô hình giáo viên) sang một mô hình nhỏ gọn hơn, đơn giản hơn (Student Model-mô hình học sinh) mà vẫn cố gắng duy trì hiệu suất tương đương.

Kỹ thuật bị lãng quên 10 năm của Google khiến DeepSeek tận dụng vươn lên cướp việc của con người với giá rẻ mạt như thế nào?- Ảnh 1.

Thay vì huấn luyện mô hình nhỏ chỉ dựa trên dữ liệu gốc, quá trình này cho phép mô hình học sinh "học" từ các đầu ra của mô hình giáo viên, giúp tiết kiệm tài nguyên tính toán và thời gian suy luận, đồng thời phù hợp với việc triển khai trên các thiết bị có hiệu năng thấp hơn.

Điều này khiến thị trường khá lo lắng khi nhu cầu sử dụng chip của Nvidia sẽ giảm dần theo thời gian khi các mô hình AI sau này ngày càng hoàn thiện nhờ kỹ thuật chắt lọc tri thức.

Nghiên cứu vào tháng 1/2025 của một nhóm các nhà khoa học tại UC Berkeley cho thấy họ đã đào tạo được 2 mô hình AI mới với chi phí điện toán dưới 1.000 USD/mô hình.

Tương tự vào đầu tháng 2/2025, các nhà nghiên cứu từ Đại học Stanford, Đại học Washington và Viện Allen về AI đã có thể đào tạo một mô hình lý luận hữu ích với chi phí rất nhỏ.

Tất cả những thành quả này đều nhờ kỹ thuật chắt lọc tri thức.

10 năm lãng quên

Tờ BI nhận định kỹ thuật chắt lọc tri thức sẽ giúp những mô hình nền tảng chung như Llama của Meta xây dựng được các ứng dụng AI thông minh, ví dụ như trở thành một chuyên gia về luật thuế tại Mỹ với giá rẻ mạt.

Mô hình lý luận R1 của DeepSeek đã chắt lọc tri thức từ Llaman để có khả năng lý luận tốt hơn thay vì tốn quá nhiều thời gian và tài nguyên đào tạo để trả lời từng bước.

"Mô hình chắt lọc tri thức đó có quy mô nhỏ hơn, ít tham số hơn, ít bộ nhớ hơn. Bạn có thể chạy nó trên điện thoại của mình. Bạn có thể chạy nó trên các thiết bị biên", đối tác Samir Kumar tại Touring Capital giải thích.

Việc DeepSeek thu hẹp quy mô nhưng lại có khả năng suy luận tốt hơn là nguyên nhân chính khiến chúng trở nên nổi bật, được so sánh với OpenAI và làm xáo trộn thị trường.

Trên thực tế kỹ thuật chắt lọc tri thức này đã xuất hiện lần đầu tiên trong một bài báo năm 2015 do các giám đốc AI nổi tiếng của Google là Jeff Dean, Geoffrey Hinton và Phó chủ tịch nghiên cứu Google DeepMind hiện tại là Oriol Vinyals chấp bút.

Kỹ thuật bị lãng quên 10 năm của Google khiến DeepSeek tận dụng vươn lên cướp việc của con người với giá rẻ mạt như thế nào?- Ảnh 2.

Ban đầu, bài báo đã bị từ chối tại hội nghị NeurIPS danh giá vì nó không được coi là có nhiều tác động đến lĩnh vực này. Thế nhưng chỉ 10 năm sau, kỹ thuật này đột nhiên trở thành chủ đề thảo luận hàng đầu về AI.

Theo BI, điều khiến kỹ thuật chắt lọc tri thức bỗng trở nên mạnh mẽ như hiện nay là do số lượng cũng như chất lượng của các mô hình nguồn mở để sử dụng làm Teacher Model.

Nói đơn giản hơn, chính ChatGPT cùng hàng loạt những mô hình AI sau này đã tạo thành các Teacher Model hiệu quả, giúp thúc đẩy sự thành công của DeepSeek khi

Bên cạnh đó, giám đốc kỹ thuật Kate Soule của LLM Granite thuộc IBM nhận định việc tận dụng kỹ thuật này của DeepSeek còn được cho là mở toang cánh cửa cạnh tranh giữa các mô hình AI vốn được những tập đoàn lớn đóng kín.

Các công ty giờ đây sẽ buộc phải mở cửa mô hình AI của mình để chắt lọc tri thức lẫn nhau và đào tạo nên những mô hình giá rẻ nhằm chạy đua với DeepSeek.

Đi xa đến đâu?

Giám đốc Soule của IBM cho biết Hugging Face, kho lưu trữ LLM trên Internet, có đầy đủ các phiên bản chắt lọc tri thức của Llama của Meta và Qwen của Alibaba bởi cả hai đều là mô hình truyền thống nguồn mở.

Tuy nhiên theo các nhà nghiên cứu từ Apple, việc chắt lọc tri thức từ mô hình mẹ cũng yêu cầu phải có chất lượng cao mới cho ra được kết quả như ý. Thế nhưng điều này đồng nghĩa các công ty phải đổ tiền đầu tư cho những mô hình mẹ tốn kém, làm lợi cho những hãng đi sau tận dụng.

Giám đốc điều hành Nvidia Jensen Huang cho biết hầu như mọi nhà phát triển AI trên thế giới hiện nay đang sử dụng R-1 của DeepSeek để chắt lọc tri thức các mô hình mới.

Mặc dù vậy, việc chỉ dựa vào R1 là có giới hạn.

Kỹ thuật bị lãng quên 10 năm của Google khiến DeepSeek tận dụng vươn lên cướp việc của con người với giá rẻ mạt như thế nào?- Ảnh 3.

"Tôi nghĩ các mô hình chắt lọc tri thức sẽ ngày càng trở nên phổ biến hơn. Tuy nhiên có một giới hạn mà các mô hình này có thể đạt được nếu chỉ dựa vào 1 mô hình mẹ, và chúng ta đang ngày càng tiến gần hơn đến giới hạn đó", nhà đồng sáng lập Jasper Zhang của nền tảng đám mây Hyperbolic cho biết.

Một chuyên gia giấu tên của Google Deepmind nói với BI rằng thậm chí nhiều nền tảng đang cố gắng giảm bớt, loại bỏ các dấu vết chắt lọc tri thức để hạn chế việc bị sao chép kỹ thuật này.

Ví dụ OpenAI ẩn toàn bộ đường dẫn lý luận trong mô hình lý luận o1 của mình, dù vẫn hiển thị thông tin trong phiên bản o3-mini nhỏ hơn.

"Một trong những điều bạn sẽ thấy trong vài tháng tới là các công ty AI hàng đầu sẽ cố gắng ngăn chặn sự sao chép chắt lọc tri thức từ đối thủ", cố vấn David Sacks về chính sách tiền điện tử và trí tuệ nhân tạo (AI) của Tổng thống Donald Trump nói với Fox News vào tháng 1/2025.

Mặc dù vậy tờ BI nhận định sẽ rất khó để kiềm chế xu thế này khi thành công của DeepSeek đã mở ra một hướng đi mới cho AI mã nguồn mở.

*Nguồn: BI

Link nội dung: https://businessinvestmentvn.com/ky-thuat-bi-lang-quen-10-nam-cua-google-khien-deepseek-tan-dung-vuon-len-cuop-viec-cua-con-nguoi-voi-gia-re-mat-nhu-the-nao-a222267.html