
发布日期:2024-10-29 02:05 点击次数:55
泉源:网易新闻
IT之家 10 月 12 日音书,频年来,东说念主工智能(AI)在各个限制得到了权贵的进展,其中大型讲话模子(LLM)简略生成东说念主类水平的文本,以致在某些任务上高出东说念主类的进展。然则,扣问东说念主员对 LLM 的推理才调提议了质疑,他们发现这些模子在贬责圣洁的数知识题时,独一稍加改变,就会犯造作,这标明它们可能并不具备确切的逻辑推理才调。
图源 Pexels
周四,苹果公司的一组扣问东说念主员发布了一篇名为《交融大型讲话模子中数学推理的局限性》的论文,揭示 LLM 在贬责数知识题时容易受到骚扰。IT之家细心到,扣问东说念主员通过对数知识题的细小改变,举例添加无关的信息,来测试 LLM 的推理才调。恶果发现,这些模子在濒临这么的变化时,其进展急剧下落。
举例,当扣问东说念主员给出一个圣洁的数知识题:“奥利弗星期五摘了 44 个奇异果,星期六摘了 58 个奇异果。日曜日,他摘的奇异果是星期五的两倍。奥利弗一共摘了几许个奇异果?”时,LLM 简略正确地臆测出谜底。然则,当扣问东说念主员添加一个无关的细节,“日曜日,他摘的奇异果是星期五的两倍,其中 5 个比平均小。”时,LLM 的修起却出现了造作。举例,GPT-o1-mini 的修起是:“... 日曜日,其中 5 个奇异果比平均小。咱们需要从日曜日的总和中减去它们:88(日曜日的奇异果) - 5(较小的奇异果) = 83 个奇异果。”
上头只是一个圣洁的例子,扣问东说念主员修改了数百个问题,简直统共问题王人导致模子的修起得胜率大幅下落。
扣问东说念主员合计,这种表象标明 LLM 并莫得确切交融数知识题,而是只是凭据检修数据中的形式进行讨论。但一朝需要确切的“推理”,举例是否臆测小的奇异果,它们就会产生奇怪的、分辨常理的恶果。
这一发现对 AI 的发展具有迫切的启示。诚然 LLM 在好多限制进展出色,但其推理才调仍然存在局限性。昔日,扣问东说念主员需要进一步探索怎样晋升 LLM 的推理才调,使其简略更好地交融和贬责复杂的问题。