![]() |
Liệu một công ty toàn là AI sẽ vận hành thành công. Ảnh: Business Insiders. |
Trong một thí nghiệm gần đây, các nhà nghiên cứu tại Đại học Carnegie Mellon đã giả lập một công ty phần mềm có tên TheAgentCompany với đầy đủ quy định nhân viên, trang web nội bộ. Trong đó, toàn bộ nhân sự đều là tác nhân AI (AI agents), trí tuệ nhân tạo được thiết kế để tự suy luận, lên kế hoạch thực hiện nhiệm vụ.
Phần mềm trí tuệ nhân tạo vận hành “nhân viên” được lấy từ Google, OpenAI, Anthropic và Meta. Các AI này đảm nhận vai trò từ nhà phân tích tài chính, kỹ sư phần mềm đến quản lý dự án. Chúng làm việc cùng nhau như đồng nghiệp, trong các bộ phận mô phỏng từ ban nhân sự, hay kỹ thuật ngoài đời thật.
Thí nghiệm yêu cầu mô hình AI xử lý công việc mô phỏng nhiệm vụ hàng ngày của các nhân viên thực thụ tại một công ty phần mềm. Nhóm nghiên cứu muốn đánh giá chính xác khả năng hoạt động của AI trong môi trường thực tế, và liệu chúng đủ khả năng để thay thế con người.
Các thao tác cần được xử lý không giới hạn từ điều hướng thư mục tệp, tham quan văn phòng mới một cách “trực tuyến”, và viết đánh giá hiệu suất cho kỹ sư phần mềm dựa trên phản hồi thu thập được.
Trong một nhiệm vụ, AI phải truy cập nhiều thư mục để phân tích cơ sở dữ liệu của một chuỗi cửa hàng cà phê. Ở công việc khác, chúng được yêu cầu thu thập phản hồi về một kỹ sư 36 tuổi và viết bài đánh giá hiệu suất làm việc.
Tuy nhiên, theo Business Insiders, kết quả đạt được rất tệ. Mô hình hoạt động tốt nhất, Claude 3.5 Sonnet của Anthropic, cũng chỉ hoàn thành được 24% số nhiệm vụ được giao. Nhóm nghiên cứu lưu ý rằng ngay cả mức hiệu suất khiêm tốn này cũng đi kèm chi phí rất cao. Trung bình Claude cần gần 30 bước và tốn hơn 6 đô la để thực hiện mỗi nhiệm vụ.
Xếp thứ hai là Gemini 2.0 Flash của Google. Công cụ trung bình cần tới 40 bước để hoàn thành một nhiệm vụ, nhưng chỉ đạt tỷ lệ thành công 11,4%. Đứng cuối cùng là Nova Pro v1 của Amazon với 1,7% số nhiệm vụ hoàn thành, và trung bình gần 20 bước.
Theo các nhà nghiên cứu, nguyên nhân của kết quả này là do các tác nhân AI vẫn thiếu kiến thức nền tảng thông thường, và kỹ năng xã hội yếu. Ngoài ra, khả năng điều hướng, truy cập internet cũng rất kém.
Chatbot cũng gặp khó khăn với hiện tượng tự lừa dối, tức là tự động tạo ra hướng đi dễ hơn, nhưng lại dẫn đến làm hỏng nhiệm vụ. Ví dụ, trong quá trình thực hiện một tác vụ, tác nhân AI không thể tìm được đúng người để hỏi trong phòng chat công ty. Vì vậy, chúng đã nghĩ ra phương pháp tắt là dùng tên người đang tìm kiếm đặt cho một đối tượng khác.
Stephen Casper, một nhà nghiên cứu AI cho biết mọi người đang thổi phồng khả năng của tác nhân AI. Cả Jensen Huang, CEO của Nvidia, Sam Altman, CEO của OpenAI, đều nhận định rằng trong năm nay AI sẽ tham gia vào lực lượng lao động, thay thế một số bộ phận trong công ty.
Tuy nhiên, nhiều nghiên cứu khác đã chứng minh điều ngược lại. Harvard Business School đã chỉ ra AI chưa thích nghi tốt ở môi trường có sự thay đổi lớn. Báo cáo của Langchain cũng cho thấy chúng gặp khó khăn trong việc ứng dụng công cụ và nghe theo hướng dẫn.
Các tác nhân AI được cho là có thể thực hiện tốt một số nhiệm vụ nhỏ lẻ. Nhưng theo kết quả của nghiên cứu trên, chúng có tỷ lệ thành công cao hơn ở những tác vụ khó hơn cho con người, như phát triển phần mềm.
Kết quả thu được từ thí nghiệm của Carnegie Mellon cho thấy AI vẫn chưa thay thế được con người trong các nhiệm vụ quan trọng. Mặt khác, con người có thể tận dụng AI để tối ưu hóa công việc hàng ngày của mình.
Những câu hỏi chúng ta phải đối mặt trong thế giới AI
Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.
Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.