Grok 3, sản phẩm mới nhất của xAI, đã được Elon Musk giới thiệu trong buổi livestream trên X vào ngày 17/2 vừa qua. Bản phát hành này bao gồm các mô hình lý luận Grok 3 Reasoning (bản beta) và Grok 3 mini Reasoning. Các mô hình có khả năng lập luận được đánh giá cao hơn các mô hình tạo sinh tiêu chuẩn như GPT-4 bởi chúng có thể "suy nghĩ" để giải quyết vấn đề, hạn chế khả năng đưa ra thông tin sai.
Công ty xAI quảng bá Grok 3 là mô hình tốt nhất trên thị trường, khẳng định nó vượt trội hơn các đối thủ từ OpenAI, Google, Anthropic và DeepSeek trong các bài kiểm tra đánh giá quan trọng. Grok 3, với mật danh "chocolate", đã thể hiện tốt trong Chatbot Arena (nền tảng nguồn mở, đánh giá các mô hình AI dựa trên sở thích của người dùng). Mặc dù ra mắt muộn hơn, Grok 3 đã bắt kịp các đối thủ, một thành tích ấn tượng. Tuy nhiên, nó vẫn tồn tại một số hạn chế tương tự như các mô hình tiên tiến khác. Dưới đây là những đánh giá của các chuyên gia AI về chatbot mới này.
Grok 3 cũng tốt nhưng chưa thể thay thế ChatGPT
OpenAI là một trong những công ty dẫn đầu về phát triển trí tuệ nhân tạo, sở hữu ChatGPT là công cụ AI phổ biến nhất trong một vài năm trở lại đây. Tuy nhiên, với sự ra mắt của DeepSeek, ChatGPT đã có đối thủ cạnh tranh trong thị trường chatbot AI. Elon Mush cho ra đời Grok 3 tiếp tục chứng minh sự cạnh tranh đang diễn ra khốc liệt.

Andrej Karpathy (thành viên sáng lập OpenAI và cựu giám đốc AI tại Tesla) đã được tiếp cận sớm với Grok 3 mới phát hành và chia sẻ "đánh giá nhanh" về hiệu suất của mô hình. Dựa trên một số bài kiểm tra tiêu chuẩn, Karpathy cho biết Grok 3, với tính năng Deep Search Reasoning mới, "có thể sánh ngang với các mô hình mạnh nhất của OpenAI (o1-pro, giá 200 USD/tháng), và tốt hơn một chút so với DeepSeek-R1 và Gemini 2.0 Flash Thinking".
Nhiều người cho rằng Grok 3 đã bắt kịp các đối thủ. Tuy nhiên, đối với những người đang tìm kiếm mô hình tốt nhất trên thị trường, sự thể hiện này có thể chưa đủ thuyết phục. Giáo sư Ethan Mollick (trường Wharton AI) đã chia sẻ quan điểm của mình trên mạng xã hội X: "Tôi nghĩ Grok 3 đã đạt đúng như kỳ vọng. Vì vậy, tôi cho rằng nó không cần phải cập nhật quá nhiều.”
xAI đã bỏ sót một so sánh quan trọng với Grok 3
Những ảnh chụp màn hình cho thấy mô hình Grok 3 Reasoning vượt trội hơn OpenAI o3 mini và o1, DeepSeek R1 và Google Gemini 2.0 Flash Thinking đã lan truyền nhanh chóng. Tuy nhiên, OpenAI đã phản hồi: "Chưa chắc đâu!". Ngay sau khi các kết quả được chia sẻ trên livestream, kỹ sư sản phẩm Rex Asabor (OpenAI) đã đăng một biểu đồ "cập nhật" cho thấy O3 đánh bại Grok 3 Reasoning trong các bài kiểm tra toán học và khoa học.
Công bằng mà nói, O3 vẫn chưa được phát hành công khai, vì vậy xAI có thể chưa có đủ dữ liệu để so sánh. Trong một bài đăng khác trên X, giáo sư Mollick gọi Grok 3 là "một mô hình rất tốt hiện đang ở vị trí tiên phong" và cho rằng: "Điều quan trọng cần chú ý nó đã đạt được điều này rất nhanh và liệu điều đó có tiếp tục hay không".

Theo Elon Musk, Grok 3 được đào tạo với sức mạnh tính toán gấp 10 lần Grok 2, với 200.000 GPU. Điều này, ít nhất là trong ngắn hạn, củng cố quy luật tỷ lệ: Khả năng tính toán càng nhiều thì hiệu suất mô hình càng tốt. Tuy nhiên, giới chuyên gia vẫn còn nghi ngờ liệu mô hình đó có dẫn đến trí thông minh cao hơn so với những gì hiện có thể đạt được hay không.
Nhà nghiên cứu AI kiêm giáo sư tâm lý học và khoa học thần kinh Gary Marcus (Đại học New York) vẫn hoài nghi về việc quy luật tỷ lệ này còn đúng trong tương lai hay không.
Musk thừa nhận rằng mô hình này vẫn đang trong quá trình hoàn thiện: "Chúng tôi phải nhấn mạnh rằng đây là phiên bản beta, nghĩa là ban đầu bạn sẽ thấy một số khiếm khuyết, nhưng chúng tôi sẽ cải thiện nó nhanh chóng, hầu như mỗi ngày".
Ông cũng thông báo rằng tính năng hỗ trợ giọng nói cho Grok 3 sẽ được phát hành sau.