
Các chương trình trí tuệ nhân tạo đã đạt được nhiều thành tựu trong những năm gần đây - Ảnh: REUTERS
Chúng ta không thể quan sát toàn bộ quá trình từ khi nhập dữ liệu đầu vào cho đến khi đưa ra kết quả đầu ra của các mô hình ngôn ngữ lớn (LLM).
Để dễ hiểu, các nhà khoa học đã sử dụng các thuật ngữ thông dụng như "suy luận" để mô tả cách thức hoạt động của các chương trình này. Họ cũng nói rằng các chương trình có thể "suy nghĩ", "suy luận" và "hiểu biết" như cách con người vẫn làm.
Cường điệu khả năng của AI
Trong hai năm qua, nhiều giám đốc điều hành AI đã dùng lời lẽ cường điệu để phóng đại các thành tựu kỹ thuật đơn giản, theo trang ZDNET ngày 6-9.
Tháng 9-2024, OpenAI từng tuyên bố mô hình lý luận o1 "sử dụng chuỗi suy luận khi giải quyết vấn đề, giống cách con người suy nghĩ lâu khi đối mặt câu hỏi khó".
Tuy nhiên giới khoa học AI phản đối. Họ cho rằng AI không hề có trí thông minh như con người.
Một nghiên cứu trên cơ sở dữ liệu arXiv của nhóm tác giả tại Đại học Bang Arizona (Mỹ) đã kiểm chứng khả năng suy luận của AI bằng thí nghiệm đơn giản.
Kết quả cho thấy "suy luận nhờ chuỗi suy nghĩ là một ảo tưởng mong manh", không phải cơ chế logic thật sự, mà chỉ là hình thức tinh vi của so khớp mẫu.
Thuật ngữ "chuỗi suy nghĩ" (CoT) cho phép AI không chỉ đưa ra đáp án cuối cùng mà còn trình bày từng bước lập luận logic, như ở các mô hình GPT-o1 hay DeepSeek V1.

Ảnh minh họa mô hình ngôn ngữ GPT-2 của Công ty OpenAI - Ảnh: ECHOCRAFTAI
Kiểm tra những gì AI thực sự làm
Nhóm nghiên cứu cho biết những phân tích quy mô lớn cho thấy LLM có khuynh hướng dựa vào ngữ nghĩa và manh mối bề mặt hơn là các quy trình suy luận logic.
"LLM xây dựng các chuỗi logic hời hợt dựa trên các liên kết đầu vào đã học, thường thất bại trong các nhiệm vụ đi chệch khỏi các phương pháp suy luận thông thường hay khuôn mẫu quen thuộc", nhóm giải thích.
Để kiểm chứng giả thuyết LLM chỉ đang so khớp mẫu chứ không thật sự suy luận, nhóm nghiên cứu đã huấn luyện GPT-2, mô hình mã nguồn mở của OpenAI ra mắt năm 2019.
Mô hình được đào tạo từ đầu với các nhiệm vụ rất đơn giản trên 26 chữ cái tiếng Anh, như đảo vị trí một số chữ, chẳng hạn biến "APPLE" thành "EAPPL". Sau đó nhóm thay đổi nhiệm vụ và yêu cầu GPT-2 xử lý.
Kết quả cho thấy với những nhiệm vụ không có trong dữ liệu huấn luyện, GPT-2 không thể giải quyết chính xác bằng cách dùng CoT.
Thay vào đó, mô hình cố gắng áp dụng các nhiệm vụ đã học gần giống nhất. Vì thế "suy luận" của nó nghe có vẻ hợp lý nhưng kết quả thường sai.
Nhóm rút ra rằng không nên quá phụ thuộc hay tin tưởng mù quáng vào câu trả lời của LLM, bởi chúng có thể tạo ra "những điều vô nghĩa nhưng nghe rất thuyết phục".
Họ cũng nhấn mạnh cần hiểu đúng bản chất của AI, tránh cường điệu và ngừng quảng bá rằng AI có khả năng suy luận như con người.
