Este novo benchmark pode expor a maior fraqueza da IA
O ARC-AGI-3 testa se os modelos conseguem raciocinar através de problemas novos, e não apenas recordar padrões, uma tarefa que até os sistemas de topo ainda têm dificuldade em realizar. A influente IA re