AI Hàn Quốc đạt điểm tụt hậu đáng kể so với thế giới trong khả năng suy luận phức tạp và toán học

Theo kết quả một nghiên cứu của nhóm nghiên cứu do Giáo sư Kim Jong-rak tại Đại học Sogang dẫn đầu, các mô hình ngôn ngữ trí tuệ nhân tạo (AI) nội địa của Hàn Quốc hoạt động kém hiệu quả hơn đáng kể so với các mô hình hàng đầu quốc tế trong việc giải quyết các bài toán toán học ở cấp độ thi đại học.

ẢnhAFPYonhap News — [Ảnh=AFP/Yonhap News]

Nghiên cứu đã thử nghiệm 5 mô hình AI tiếng Hàn chính so với 5 mô hình toàn cầu, bao gồm ChatGPT, sử dụng các câu hỏi toán học và luận văn được lấy từ các kỳ thi tuyển sinh đại học.

Kết quả cho thấy khoảng cách hiệu suất rộng giữa các hệ thống của Hàn Quốc và quốc tế.

Trong số các mô hình của Hàn Quốc, chỉ có Solar Pro-2 của Upstage đạt điểm trên 30, với 58 điểm. Các mô hình trong nước khác tập trung ở mức điểm 20~30 điểm, với Llama Barco 8B Instruct của NCSoft chỉ đạt 2 điểm. Ngược lại, các mô hình quốc tế ghi nhận điểm số từ 76~92 điểm.

Bài đánh giá bao gồm 50 câu hỏi cho mỗi mô hình: 20 bài toán toán học độ khó cao bao gồm các kiến thức toán học thông dụng, xác suất và thống kê, giải tích và hình học, cũng như 30 câu hỏi dạng bài luận được lấy từ các kỳ thi tuyển sinh đại học của Hàn Quốc, Ấn Độ và Nhật Bản.

Các mô hình Hàn Quốc được thử nghiệm là Solar Pro-2 của Upstage, Exaone 4.0.1 của LG AI Research, HCX-007 của Naver, AX 4.0 (72B) của SK Telecom và Llama Barco 8B Instruct của NCSoft. Các mô hình quốc tế bao gồm GPT-5.1, Gemini 3 Pro Preview, Claude Opus 4.5, Grok 4.1 Fast và DeepSeek V3.2.

Ngay cả khi được phép sử dụng các công cụ dựa trên Python để nâng cao độ chính xác tính toán, các mô hình Hàn Quốc vẫn gặp khó khăn.

Trong một bài đánh giá riêng biệt sử dụng 100 câu hỏi được thiết kế riêng, các mô hình quốc tế đạt điểm từ 82,8 đến 90 điểm, trong khi các mô hình Hàn Quốc đạt từ 7,1 đến 53,3 điểm.

Khi các mô hình được cho tối đa 3 lần thử để giải mỗi bài toán, Grok đạt điểm tuyệt đối, trong khi các mô hình quốc tế khác đạt 90 điểm.

Trong số các hệ thống của Hàn Quốc, Solar Pro-2 đạt 70 điểm và Exaone đạt 60 điểm. HCX-007, AX 4.0 và Llama Barco 8B Instruct lần lượt đạt 40, 30 và 20 điểm.

Giáo sư Kim cho biết: "Chúng tôi tiến hành thử nghiệm này để đáp ứng những câu hỏi ngày càng tăng về hiệu suất của các mô hình AI trong nước đối với các bài toán ở cấp độ thi tuyển sinh. Kết quả cho thấy rõ ràng rằng các mô hình của Hàn Quốc vẫn còn tụt hậu đáng kể so với các mô hình hàng đầu thế giới, đặc biệt là trong khả năng suy luận phức tạp và toán học".

Những phát hiện này làm gia tăng mối lo ngại trong ngành công nghiệp AI của Hàn Quốc về những thiếu sót trong khả năng suy luận nâng cao, bất chấp sự đầu tư mạnh mẽ và sự phát triển nhanh chóng của các mô hình trong những năm gần đây.

AI Hàn Quốc đạt điểm tụt hậu đáng kể so với thế giới trong khả năng suy luận phức tạp và toán học

TIN TỔNG HỢP

GIẢI TRÍ

AJU VIDEO

Kinh tế Chính trị

Đời sống - Xã hội

Giải trí

Du lịch

Việt Nam

Thế giới