Google DeepMind Evals: Bộ tiêu chuẩn mới đo lường năng lực và độ tin cậy của AI
Tóm tắt: Google DeepMind vừa công bố "Evals" - hệ thống các bộ đánh giá toàn diện dành cho các mô hình AI. Từ kiểm tra tính trung thực (Factuality), khả năng tìm kiếm thông tin phức tạp (DeepSearch) đến tư duy chiến lược qua cờ vua (Chess Text), bài viết này sẽ điểm qua các công cụ then chốt giúp cộng đồng phát triển những hệ thống AI an toàn và đáng tin cậy hơn.
Trong kỷ nguyên bùng nổ của Trí tuệ nhân tạo tạo sinh (Generative AI), việc tạo ra một mô hình thông minh là chưa đủ; chúng ta cần những thước đo chính xác để biết mô hình đó có thực sự "hiểu" và "trung thực" hay không. Mới đây, Google DeepMind đã giới thiệu trang Evals – một tập hợp các nghiên cứu và bộ dữ liệu (dataset) nhằm đánh giá năng lực AI một cách minh bạch và chuẩn xác nhất.
Dưới đây là những điểm nổi bật trong bộ công cụ đánh giá mới này:
1. Đặt tính trung thực làm trọng tâm (Factuality)
Một trong những vấn đề lớn nhất của các mô hình ngôn ngữ lớn (LLM) hiện nay là "ảo giác" (hallucination) – tức là AI tự bịa ra thông tin sai lệch một cách tự tin. Để giải quyết vấn đề này, DeepMind giới thiệu hai bộ công cụ quan trọng:
- SimpleQA Verified: Đây là bản nâng cấp từ bộ benchmark SimpleQA cũ của OpenAI. Nhận thấy bản gốc còn nhiều sai sót và nhiễu, DeepMind đã tinh chỉnh lại với 1.000 câu hỏi (prompt) được kiểm chứng kỹ lưỡng. Mục tiêu là tạo ra một thước đo "sạch" để kiểm tra kiến thức thực sự của AI về các sự kiện ngắn gọn, giúp cộng đồng theo dõi tiến bộ thực chất thay vì chỉ để mô hình "học vẹt" theo dữ liệu cũ.
- FACTS Benchmark Suite: Đây là bộ tiêu chuẩn toàn diện đầu tiên đánh giá tính trung thực của AI trên 4 chiều kích: kiến thức nội tại (AI tự nhớ), khả năng tìm kiếm (Search), khả năng xử lý đa phương thức (hình ảnh/văn bản), và quan trọng nhất là Grounding (khả năng neo thông tin). Đặc biệt, FACTS Grounding kiểm tra xem AI có trả lời dựa trên tài liệu được cung cấp hay không, tránh việc "râu ông nọ cắm cằm bà kia".
2. Đánh giá khả năng tìm kiếm và lập kế hoạch (Agents & Search)
AI ngày nay không chỉ trả lời câu hỏi, chúng đang trở thành các "trợ lý" (agents) thực hiện nhiệm vụ.
- DeepSearch QA: Đây là bài kiểm tra khó nhằn với 900 câu hỏi yêu cầu AI phải thực hiện chuỗi hành động tìm kiếm đa bước (multi-step). Khác với việc Google Search trả về một danh sách link, DeepSearch QA yêu cầu AI phải lên kế hoạch: tìm thông tin A, dùng kết quả đó để tìm tiếp thông tin B, và xâu chuỗi lại để có câu trả lời cuối cùng. Đây là thước đo quan trọng cho khả năng tư duy dài hạn (long-horizon planning) của các AI Agent.
3. Đo lường tư duy chiến lược qua Cờ vua (Strategic Reasoning)
Cờ vua từ lâu đã là "thánh địa" để đo trí tuệ máy tính. Tuy nhiên, DeepMind tiếp cận theo hướng mới với Chess Text và Chess Text Openings.
Thay vì chỉ đấu cờ, các mô hình ngôn ngữ sẽ được đánh giá khả năng "lý luận" nước đi dưới dạng văn bản. Hệ thống xếp hạng này sử dụng phương pháp thống kê Bayes để so sánh khả năng tư duy chiến lược của các mô hình ngôn ngữ đa dụng (general-purpose LLMs) một cách công bằng, đặc biệt là khả năng xử lý các khai cuộc (openings) đa dạng để tránh việc AI chỉ học thuộc lòng nước đi.
Kết luận
Việc Google DeepMind công khai các bộ Evals cùng với bảng xếp hạng (Leaderboard) trên Kaggle là một bước tiến quan trọng cho cộng đồng mã nguồn mở. Nó không chỉ giúp các nhà phát triển nhìn nhận rõ điểm mạnh, điểm yếu của mô hình mình tạo ra mà còn thúc đẩy một tương lai nơi AI không chỉ thông minh hơn mà còn trung thực và đáng tin cậy hơn.