Trải nghiệm AI thi toán với nhau

Trong một buổi sáng tĩnh lặng, khi đang lướt qua VnExpress, tôi tình cờ phát hiện một bài toán có vẻ đơn giản nhưng lại ẩn chứa nhiều điều thú vị. Đây là cơ hội để tôi thực hiện một cuộc “thử sức” đặc biệt dành cho các trí tuệ nhân tạo (AI). Mục đích của cuộc thi này là để đánh giá khả năng tư duy logic và phân tích vấn đề của các AI.

Thank you for reading this post, don't forget to subscribe!

Tôi đã chọn bài toán này làm “đề thi” và quyết định thách thức một loạt các AI, từ miễn phí đến trả phí, để xem chúng sẽ xử lý như thế nào.

Và dưới đây là những “gương mặt” AI sẽ tham gia tranh tài trong cuộc thi toán học đặc biệt này:

  1. Copilot Pro: AI trợ lý lập trình mạnh mẽ từ Microsoft, được tích hợp vào các công cụ như Visual Studio Code, giúp hỗ trợ viết code, debug và tối ưu hóa mã nguồn. (Trả phí)
  2. GPT-4o1 (OpenAI): Phiên bản mới nhất và mạnh mẽ nhất trong dòng mô hình GPT, nổi tiếng với khả năng hiểu và tạo văn bản tự nhiên, trả lời câu hỏi phức tạp, và sáng tạo nội dung. (Có phiên bản miễn phí và trả phí)
  3. Gemini 2.0 (Google): Mô hình ngôn ngữ tiên tiến từ Google AI, được thiết kế để xử lý đa tác vụ, từ hiểu ngôn ngữ tự nhiên, trả lời câu hỏi đến tạo nội dung sáng tạo. (Có phiên bản miễn phí và trả phí)
  4. Le Chat (Mistral 2): Mô hình ngôn ngữ mã nguồn mở từ Mistral AI, được biết đến với hiệu suất cao và khả năng tùy chỉnh linh hoạt. (Miễn phí)
  5. Claude 3.5 Haiku (Anthropic): Phiên bản mới nhất từ Anthropic, tập trung vào tốc độ và hiệu quả, phù hợp cho các tác vụ cần phản hồi nhanh. (Có phiên bản miễn phí và trả phí)
  6. Qwen2.5 72B (Alibaba): Mô hình ngôn ngữ từ Alibaba Cloud, với số lượng tham số lớn, hứa hẹn khả năng xử lý ngôn ngữ vượt trội. (Miễn phí)
  7. Deepseek V3: Mô hình ngôn ngữ được phát triển bởi Deepseek, với khả năng hiểu và tạo văn bản tốt, đặc biệt trong lĩnh vực lập trình và công nghệ. (Miễn phí)
  8. Nemotron 70B (Nvidia): Mô hình ngôn ngữ mạnh mẽ từ Nvidia, được huấn luyện trên bộ dữ liệu khổng lồ, có khả năng xử lý các tác vụ ngôn ngữ phức tạp. (Miễn phí)
  9. LLaMA 3.3 70B (Meta): Phiên bản mới từ Meta AI (trước đây là Facebook AI), với số lượng tham số lớn, hướng đến khả năng suy luận và giải quyết vấn đề tốt hơn. (Miễn phí)
  10. Grok 2 (xAI): Mô hình ngôn ngữ từ công ty xAI của Elon Musk, được thiết kế để có tính hài hước và khả năng truy cập thông tin thời gian thực. (Trả phí)
  11. Claude 3 (Anthropic): Một phiên bản khác trong dòng Claude, tập trung vào tính an toàn và đạo đức trong AI. (Có phiên bản miễn phí và trả phí)

Bài toán:

Một đoàn tàu rời London (Anh) để đi Paris (Pháp) với vận tốc 100 km/giờ. 30 phút sau, đoàn tàu khác rời Paris để đến London với vận tốc 50 km/giờ. Biết hai thành phố cách nhau 200 km, hỏi khi hai đoàn tàu gặp nhau, tàu nào cách London xa hơn?  
Hai tàu tuyến Eurostar đối đầu nhau trong ga tàu

Hai tàu tuyến Eurostar đối đầu nhau trong ga tàu

Đáp án đúng: Khi hai tàu gặp nhau, chúng ở cùng một vị trí, do đó khoảng cách của chúng đến London là như nhau. Đây là một bài toán mẹo, đánh lừa người giải tập trung vào việc tính toán quãng đường di chuyển thay vì nhận ra điểm mấu chốt: gặp nhau = cùng vị trí.

Bảng Thống Kê và Nhận Xét:

AIĐáp ánNhận xét
Copilot ProHai tàu cách London bằng nhau (150 km)Đúng. Lời giải logic, dễ hiểu.
GPT-4oHai tàu cách London bằng nhau (150 km)Đúng. Lời giải rõ ràng, sử dụng phương trình toán học để giải quyết bài toán.
Gemini 2.0Hai tàu cách London bằng nhau (150 km)Đúng. Lời giải chi tiết, dễ hiểu, tính toán từng bước quãng đường di chuyển của mỗi tàu.
Le Chat (Mistral 2)Sai (133.33 km)Sai. Tính toán sai quãng đường tàu thứ hai di chuyển, dẫn đến kết luận sai. Cho thấy vấn đề trong việc hiểu và xử lý dữ liệu thời gian.
Claude 3.5 HaikuHai tàu cách London bằng nhau (150 km)Đúng. Lời giải ngắn gọn súc tích
Qwen2.5 72BHai tàu cách London bằng nhau (150 km)Đúng. Lời giải súc tích, nêu rõ thông tin bài toán và phân tích ngắn gọn.
Deepseek V3Hai tàu cách London bằng nhau (150 km)Đúng. Trình bày rõ ràng, dễ hiểu, tính toán thời gian di chuyển dựa trên vận tốc tương đối.
Nemotron 70BHai tàu cách London bằng nhau (150 km)Đúng. Lời giải ngắn gọn, súc tích, tập trung vào các bước tính toán chính.
LLaMA 3.3 70BHai tàu cách London bằng nhau (150 km)Đúng. Lời giải rõ ràng, phân tích vận tốc tương đối và thời gian gặp nhau.
Grok 2Lần 1: Không rõ. Lần 2: Hai tàu cách London bằng nhau (150 km)Lần 1: Có thể sai. Lần 2: Đúng. Cho thấy khả năng tự điều chỉnh, nhưng đặt ra câu hỏi về độ tin cậy ban đầu.
Claude 3Sai (Tàu từ London cách xa hơn – 150 km)Sai. Nhầm lẫn trong việc thiết lập phương trình và tính toán, dẫn đến kết luận sai.
LLaMA 3.3 70B (Meta AI)Lần 1: Sai. Lần 2: Đúng (Hai tàu cách London bằng nhau – 150 km).Không ổn định. Kết quả khác nhau giữa các lần chạy cho thấy sự ảnh hưởng của các yếu tố bên ngoài mô hình (nền tảng, cách thức tương tác, v.v.). Cần thử nghiệm nhiều lần để đánh giá chính xác.

Phần lớn các AI, đặc biệt là Copilot Pro, GPT-4o, Gemini 2.0, Claude 3.5 Haiku, Deepseek V3, Qwen2.5 72B, Nemotron 70B và LLaMA 3.3 70B, đã thể hiện khả năng giải quyết bài toán logic tốt, đưa ra đáp án chính xác và lời giải rõ ràng. Tuy nhiên, vẫn còn một số AI như Le Chat (Mistral 2), Claude 3, Grok 2 (lần đầu), và LLaMA 3.3 70B (trên nền tảng Meta AI) gặp khó khăn, mắc lỗi tính toán hoặc cho thấy sự thiếu ổn định.

Cuộc thử nghiệm nhỏ này cho thấy sự tiến bộ vượt bậc của AI trong lĩnh vực xử lý ngôn ngữ và toán học. Tuy nhiên, nó cũng chỉ ra rằng AI vẫn còn một chặng đường dài phía trước để đạt đến sự hoàn hảo. Các AI vẫn cần được cải thiện về độ chính xác, ổn định và khả năng nhận diện các “bẫy” logic trong các bài toán tưởng chừng đơn giản.

Điều đáng chú ý là GPT-4o, dù đưa ra đáp án chính xác và nhanh chóng, vẫn chủ động chỉ ra điểm phi thực tế của bài toán. Điều này cho thấy GPT-4o không chỉ đơn thuần giải toán dựa trên dữ liệu được cung cấp mà còn có khả năng liên hệ với kiến thức thực tế. Tuy nhiên, nhìn chung, bài toán tàu hỏa này vẫn là một bài toán lý tưởng hóa, khác xa với thực tế phức tạp, ví dụ như việc sử dụng tàu cao tốc Eurostar để di chuyển giữa London và Paris qua đường hầm eo biển Manche thay vì tàu hỏa thông thường. Khoảng cách thực tế 344km, vận tốc thay đổi, hay việc bỏ qua hoàn toàn yếu tố thời gian, sự cố… đều là những giả định đơn giản hóa. Qua đây, ta thấy rằng toán học, dù là công cụ logic mạnh mẽ, vẫn cần “nhúng” vào thực tế để trở nên hữu ích. Và AI, để tiệm cận gần hơn với trí tuệ con người, cũng cần học cách “hiểu” thế giới thực ngoài những con số và phương trình.


Khám phá thêm từ Đường Chân Trời

Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.

Lên đầu trang