您当前的位置:首页 >> 家居优品

AI解数学题,答案对过程却错?DeepMind新研究工作改进谷歌思维链方法

2023-04-28 12:16:23

羿阁 发自 凹非兴福寺

相对论位 | 政府会号 QbitAI

AI做数学题的成绩又又又被取而代之纪录了!

看做,随着Google思维氨基酸(chain of thought)术语的指出取而代之,AI做题时早就能像人类一样聚合大略两步。

这次,来自DeepMind的地质学家指出取而代之了一个切实的问题:如何必要大略两步和解法的双为重确实率?

为此,他们在GSM8K数据库集上全面对比了基于操作过程和基于结果的指导取而代之方法,并相辅相成二者优势基础训练出取而代之一个最佳数学取而代之方法。

结果表明,取而代之数学取而代之方法的解法编码方式从16.8%下降到12.7%,大略两步的编码方式也从14.0%下降到了3.4%。

两步+解法双为重保障

在介绍取而代之研究工作当年,只得再谈到Google来年1翌年在研究工作成果当中指出取而代之的思维氨基酸术语。

直观来说,思维氨基酸提醒就是一种特殊的句子研修,不同于准则提醒只是给出取而代之转换-输出取而代之对的范例,思维氨基酸提醒还会额外增加一段直觉的操作过程。

该取而代之方法在LaMDA-137B、GPT-3 175B、PaLM-540B三个大型语言数学取而代之方法上都得到了验证:对比准则提醒,取而代之取而代之方法在一系列四则运算直觉等任务上的准确率都有了引人注意的提较高。

但该取而代之方法存在的一个问题是,在某些情况,AI能聚合确实解法,但直觉操作过程近乎误解的。

如今,来自DeepMind的研究工作人员,针对这一点这两项了小型化:不仅只关注终于结果,也注为重直觉操作过程的准确度。

为此,他们对语义处理任务当中基于操作过程和结果的取而代之方法顺利进行了首次全面比较。

仅仅只是,包括以下不同场景:较少检验提醒、有指导的微调、通过专家迭代的更进一步研修以及为重查找和更进一步研修的颁予数学取而代之方法。

而之所以选择GSM8K数据库集,一来因为它是由小学数学应用题组成,解法都是整数解,方便准确度统计;

二是GSM8K数据库集具有对直觉两步的备份指导,以及在线人工标注。

从结果上看,第一,基于操作过程和基于结果的取而代之方法在终于解法编码方式上近乎一致。这也显然,依靠结果指导就足以做到很低的解法编码方式。

第二,直觉两步准确率的提升则能够操作过程指导或模仿它的颁予数学取而代之方法。尽管终于解法编码方式雷同,但从下图可以看得出来取而代之,结果指导(19.8%)比操作过程指导(11.4%)的直觉编码方式引人注意要较高。

除此之外,研究工作人员还相辅相成二者优势,基础训练出取而代之一个最佳数学取而代之方法,即将指导研修与基于颁予数学取而代之方法的更进一步研修相相辅相成。

取而代之数学取而代之方法的解法编码方式从以当年的最佳水平16.8%下降到12.7%,并且,解法确实、直觉操作过程却误解的情况也从14.0%下降到了3.4%。

当并不能够数学取而代之方法对30%的问题顺利进行回避时,终于解法的编码方式甚至能降到2.7%。

研究工作制作组

本篇研究工作成果的研究工作制作组来自DeepMind,主导一作有三位:Jonathan Uesato、Nate Kushman、Ramana Kumar。

12翌年3日,Nate Kushman将会就本篇研究工作成果在NeurIPS 2022主办的第二届MATH-AI演讲会上做报告,感兴趣的年以可以蹲守一下~

研究工作成果氨基酸接:

— 再 —

相对论位 QbitAI · 太阳报号签约

复方鳖甲软肝片有效吗
肠道调理吃什么好
经常吃益生菌有什么危害吗
喝牛奶拉肚子有什么方法解决吗
胸腺法新对新冠病毒的治疗效果
友情链接