Новий тест для штучного інтелекту не проходить жодна модель ШІ
Фонд Arc Prize Foundation випустив новий тест для перевірки здатностей ШІ порівняно з людиною під назвою ARC-AGI-2 та оголосив приз в $700 тисяч творцям перших п’ятьох моделей, що отримають в цьому тесті рейтинг у 85% або вище. Інформацію опубліковано на сайті фонду.
На відміну від інших тестів, що перевіряють ШІ на спеціалізовані знання або сверхточні питання, неможливі для людей, ARC-AGI-2 використовує завдання, прості для людей, але важкі для ШІ. У тестах кожне завдання розв’язували щонайменше 2 людини за 2 спроби (або менше) в контрольованому дослідженні за участю чотирьох сотень людей, тому кожна модель ШІ також отримала всього дві спроби.
Дослідники фонду виявили, що системам штучного інтелекту важко інтерпретувати значення символів, яке виходить за межі їхнього візуального вигляду. Системи намагалися перевіряти симетрію, дзеркальне відображення, трансформації і навіть розпізнавали з’єднувальні елементи, але не змогли визначити значення самих символів. Також ШІ тяжко дається виконання завдань, які вимагають одночасного застосування правил або застосування декількох правил, які взаємодіють між собою. Якщо правила завдань мають змінюватись залежно від контексту, сучасний штучний інтелект теж не впорається з завданням.
Зауважимо, що незважаючи на те, що кожні 2 людини в групах тестування завжди разом проходили тест повністю, середній результат для одної людини – 60%.
Переглядів: 0