关于为什么要做任务指标测试的文章
-
斯坦福实验的结果「斯坦福新研究警告别迷信大模型涌现能力那是度量选择的结果」
最通俗的理解:吃五个包子就饱了。以“饱了”为度量就是涌现的,以“吃了几个包子”为度量是非涌现的。其实更关心的应该是模型有没有解决问题,如果没有“涌现”,但是能够解决实际问题,那么人们也会发明另一个词语来描述这种问题解决能力,比如随便造一个词叫“解力”,“模型”出现“解力”。同时换一个度量标准“解力”也能变的平滑。所以所谓“涌现”,可能是人们度量的结果——说明模型和数据的复杂度,超过了人们给之的度量——而不是原因。科学研究本就应该是刨根问底的。这篇文章的实际意义在于发现涌现能力可能源于度量函数的非