Có gì trong 'bài kiểm tra cuối cùng của loài người'?

TS. Nguyễn Thanh Tùng, nhà khoa học người Việt làm việc lâu năm ở Mỹ, chia sẻ về quá trình xây dựng "bài kiểm tra cuối cùng của loài người" để đánh giá năng lực AI.

AI đã phát triển đến một trình độ đáng kinh ngạc. Nó có thể viết mã như những lập trình viên giỏi nhất, giải toán với trình độ tương đương huy chương bạc Olympic Toán quốc tế, hay đạt kết quả xuất sắc trong các bài kiểm tra chuẩn hóa như SAT hay GRE. Nhưng liệu AI thực sự hiểu thế giới như con người? Nó có khả năng tư duy như một chuyên gia hàng đầu không?

Đây là những câu hỏi then chốt dẫn đến sự ra đời của Humanity’s Last Exam (HLE, tạm dịch "Bài kiểm tra cuối cùng của loài người"), cũng là bài kiểm tra khó nhất dành cho AI hiện nay.

TS. Nguyễn Thanh Tùng, Phó Giáo sư Chuyên giảng tại Đại học Texas A&M, hiện làm việc tại Việt Nam với tư cách là Giảng viên cao cấp tại Đại học Fulbright, nhà khoa học AI tại FPT, là một trong những người đóng góp nhiều nhất cho HLE.

Anh đã viết hơn 100 câu hỏi, trong đó có 70 câu được chọn vào bài kiểm tra chính thức. Trong lĩnh vực khoa học máy tính và AI, anh là người đóng góp số một về số lượng câu hỏi được chọn.

"Bài kiểm tra cuối cùng loài người" dành cho AI

Humanity’s Last Exam không đơn thuần là một bộ đề kiểm tra AI thông thường. Được tổ chức bởi Center for AI Safety và công ty Scale AI, bài kiểm tra này tập hợp 3.000 câu hỏi khó nhất đến từ hơn 500 chuyên gia hàng đầu thế giới.

Các câu hỏi bao trùm hơn 100 lĩnh vực khác nhau như khoa học máy tính, toán học, vật lý, sinh học, hay nghệ thuật, triết học. Bộ câu hỏi có trình độ tiến sĩ, đòi hỏi kiến thức chuyên sâu và tư duy logic phức tạp.

Chia sẻ với Tri thức - Znews, TS. Nguyễn Thanh Tùng cho biết một trong những mô hình có kết quả tốt nhất trên HLE tính đến nay là o3 Deep Search của OpenAI, đạt hơn 25% số điểm khi làm bài thi theo hình thức “mở sách, mở máy”.

“Tức là được phép sử dụng công cụ tìm kiếm để tra cứu và Python để thực hiện các phép tính toán”, anh giải thích. Còn nếu chỉ dựa vào chính khả năng của mình, các AI hàng đầu cũng chỉ đạt dưới 10% tổng số điểm.

Nguoi hoi kho nhat AI anh 1

Ngay cả các mô hình tiên tiến nhất hiện nay cũng chỉ đạt chưa đến 10% độ chính xác trong bài kiểm tra HLE.

TS. Tùng cho hay mình bắt đầu tham gia đóng góp câu hỏi cho HLE từ tháng 9/2024. Đó là thời điểm chương trình mở đợt kêu gọi các chuyên gia toàn cầu. Để khuyến khích, tổ chức đã dành 500.000 USD làm phần thưởng cho những câu hỏi xuất sắc. Mức thưởng lên tới 5.000 USD cho 50 câu hỏi được đánh giá cao nhất và 500 USD cho 500 câu hỏi tiếp theo.

Những câu hỏi của TS. Tùng đều phải vượt qua nhiều vòng kiểm duyệt nghiêm ngặt. Đầu tiên, câu hỏi sẽ được thử nghiệm trên các mô hình AI tiên tiến nhất. Trong đó, trước hết, câu hỏi sẽ được 3 mô hình AI cơ bản kiểm tra. Nếu tất cả đều trả lời sai, nó sẽ được gửi đến 2 mô hình AI nâng cao hơn. Nếu không có mô hình nào trả lời đúng, câu hỏi mới vượt qua vòng sơ loại.

“Sau đó, câu hỏi được bình duyệt bởi 2 vòng, bởi nhóm chuyên gia hàng đầu, rồi lại chọn tiếp vào danh sách 3.000 câu hỏi chính thức. Sau khi công bố, bài thi tiếp tục được đánh giá công khai, chỉnh sửa các câu hỏi dựa trên góp ý của công chúng”, PGS TS tại Đại học Texas A&M giải thích.

Tính đến thời điểm hiện tại, TS. Tùng đã đóng góp hơn 100 câu hỏi, trong đó có 70 câu được chọn vào bài thi chính thức. Cả 70 câu hỏi đều không có mô hình AI nào trả lời đúng. Anh trở thành người đóng góp đứng thứ 2 về tổng số câu hỏi được chấp nhận và đứng đầu trong lĩnh vực khoa học máy tính, AI.

Nguoi hoi kho nhat AI anh 2

Với hơn 100 câu hỏi vượt qua vòng xét duyệt đầu tiên và 70 câu chính thức được đưa vào đề thi, TS. Nguyễn Thanh Tùng là một trong những người đóng góp nhiều nhất cho bộ câu hỏi của HLE.

AI có thể “học tủ” để vượt qua bài kiểm tra không?

Khi thiết kế các câu hỏi cho HLE, TS. Nguyễn Thanh Tùng đánh vào những thiếu sót hiện tại của AI. “Tôi chủ yếu tập trung vào điểm yếu lớn nhất của AI hiện nay: tư duy hình học và khả năng sáng tạo trong điều kiện khó khăn”, anh chia sẻ.

Chẳng hạn như hỏi cách xếp tối đa bao nhiêu quả bóng vào một hình hộp có kích thước cố định. Không dễ để AI giải quyết những bài toán này một cách hiệu quả. Một nhà nghiên cứu bình duyệt bài thi còn nhận xét: “Tôi chưa từng thấy bài toán nào phức tạp như thế này trong tài liệu học thuật”.

Ngoài ra, TS. Tùng cũng kiểm tra khả năng sáng tạo của AI trong điều kiện bị giới hạn. Đơn cử, anh yêu cầu AI tính khối lượng một quả cầu khi chỉ được sử dụng các phân số có tử số và mẫu số trong khoảng 1-20. Đây là một thử thách AI chưa từng gặp phải nên sẽ bị lúng túng vì chưa học cách làm tròn và xấp xỉ một cách hợp lý trong dữ kiện giới hạn như vậy.

Với bộ câu hỏi được đánh giá cực khó, một trong những vấn đề cốt lõi HLE đã làm sáng tỏ là khoảng cách giữa năng lực của AI và con người ở cấp độ chuyên gia. Điều này không chỉ đơn thuần là vấn đề dữ liệu hay tính toán, mà còn nằm ở cấu trúc tư duy.

Nguoi hoi kho nhat AI anh 3

Là Phó Giáo sư Chuyên giảng ngành Khoa học máy tính tại Đại học Texas A&M, TS. Tùng hiện làm việc tại Đại học Fulbright và là nhà khoa học AI của FPT. Ảnh: NVCC.

Chia sẻ với Tri thức - Znews, TS. Tùng nhận định một số câu hỏi của HLE hiện tại là kiến thức hiếm như áp dụng một định lý Toán học mới công bố hoặc câu hỏi về số gân gắn vào xương của chim ruồi.

"Những câu hỏi dạng ‘đánh đố’ này AI không trả lời được vì không có kiến thức và chưa truy cập được nguồn kiến thức cần thiết. Nhưng khi trang bị công cụ tìm kiếm Google, nó có thể tra cứu trên Internet hoặc trong những cơ sở tri thức lớn và tìm ra câu trả lời”, anh giải thích.

Khó khăn thực sự nằm ở những câu hỏi đòi hỏi suy luận phức tạp, tối ưu hóa hoặc sáng tạo. Nếu AI chỉ tiếp tục học theo phương pháp huấn luyện hiện tại, nó sẽ vẫn có những giới hạn cố hữu.

Trên thực tế, HLE không phải là bài kiểm tra AI đầu tiên. Trước đó, các bộ kiểm tra như MMLU (Massive Multitask Language Understanding) hay ARC-AGI cũng từng là tiêu chuẩn để đánh giá năng lực AI. Tuy nhiên, MMLU nhanh chóng bị các mô hình AI vượt qua do các công ty phát triển AI có thể huấn luyện mô hình của họ trên chính các bộ đề đã được công bố.

"Vì vậy, ban tổ chức HLE còn giữ một bộ câu hỏi riêng không công bố để đảm bảo tính khách quan khi chấm điểm các mô hình AI sau này”, vị tiến sĩ cho hay.

Tuy nhiên, cũng theo anh, trong tương lai, ngay cả HLE cũng có thể bị AI vượt qua, nếu các mô hình được cải tiến theo hướng sử dụng công cụ lập trình, thiết kế mô hình và tự kiểm chứng giả thuyết. Đây đều là những gì con người thường làm khi gặp vấn đề chưa có lời giải.

Những câu hỏi chúng ta phải đối mặt trong thế giới AI

Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.

Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.

Link nội dung: https://businessinvestmentvn.com/co-gi-trong-bai-kiem-tra-cuoi-cung-cua-loai-nguoi-a215075.html