9 月 5 日,人工智能写作初创公司 HyperWrite 的 Reflection 70B 引起了科技界的轰动,首席执行官 Matt Shumer 称其为“世界顶级开源模型”。Shumer 在 X 上的声明中表示,它可以与顶级闭源模型相媲美,并补充说它“在每项基准测试中都击败了 GPT-4o”并且“击败了 Llama 3.1 405B。它甚至没有接近它。”
这些都是重大的主张——法学硕士社区立即开始独立验证这些主张。由于第三方评估未能复制舒默的断言,戏剧性事件在网上实时上演。“我有点操之过急,”五天后他发帖说。“我很抱歉。”该模型的未来现在似乎不确定。
Reflection 70B 及其后果让我们的专家团队开始思考:作为一个行业,我们需要做些什么才能在这些情况下分辨出信号和噪音?未来我们如何就这些模型的基准达成一致?以下是他们关于最新一集圆桌会议的简短片段:
高级研究员 Marina Danilevsky: 我很高兴看到这么多人立即跳出来并说“不,我要尝试重现结果,你需要上传你的体重,这怎么样,那怎么样。”这是科学的正确做法。好的科学应该是可重现的。
凯特·索尔 (Kate Soule),商业战略高级经理: 目前,标准做法是在黑匣子后面进行训练,提供 API,然后说:“嘿,我们做了一件非常酷的事情,相信我们,它是有效的。”你能想象这种情况发生在其他产品或行业吗?我们需要在训练这些方面更加开放。
Maya Murad,产品经理: 对我来说,查看某个模型在基准测试中的表现并没有什么用,因为可能会发生很多事情。可能是该模型之前见过这些数据。也可能是,即使它在(一件事)上表现良好,但它可能无法推广到我自己的用例和我关心的事情。……(基准测试)很有帮助,但并不是一个完整的信号。
观看该集
后来我们采访了 Danilevsky,以进一步了解她对人工智能社区可重复性危机的看法。
IBM: 作为一个行业,我们应该做些什么来防止这种情况再次发生?
医学博士: 我们应该继续倡导透明度,提供模型权重;要求第三方验证,不要相信任何人对自己模型的任何评价,除非该模型经过第三方(最好不是直接竞争对手)的验证;并为整个社区提供支持和基础设施,以保持我们的诚实,就像他们在 Reflection 70B 中成功做到的那样。所有这些努力都会得到回报,因为我们不太可能被误导。
IBM: 基准测试是答案吗?
医学博士: 如果我们谈论基准,那么最重要的一点就是不要将基准误认为现实。基准旨在近似现实的一部分,这是科学方法的标志,在这种方法中,您会尝试控制尽可能多的变量,以便真正专注于特定方面的表现。在基准上表现良好就是在基准上表现良好。
IBM: 我们如何才能找到一种方法来就基准达成一致?
医学博士: 我们永远不应该一成不变。当科学家们将彼此的研究成果层层叠加时,就会取得进步。我们应该同意某个特定的基准测试了某些东西,并指出它没有测试的许多东西,以便下一个基准测试可以解决其中的一些漏洞。
IBM: 人工智能社区还应采用哪些最佳实践?
医学博士: 我们应该努力保持纪律性、严谨性和数据驱动性。对自己和同行的实验提出建设性的批评。要求可重复性和透明度。当结果不支持你的直觉或假设时,要谦虚并承认——这会让你成为更好、更值得信赖的科学家,而不是更差的科学家。鼓励发表负面结果和失败,因为很多东西都是从失败中学到的。
IBM: 看来彻底的科学测试和商业目标有时可能会相互冲突。
医学博士: 业务成果的快速周期与研究成果的缓慢进展并不相称——不可能在季度计划中取得突破!如果以此为预期,您最终将不可避免地陷入泡沫——您没有给结果留出任何空间,只能上升,价值实现时间也只能下降。
电子书:如何选择正确的基础模型
准备好开始做出自己的评估了吗? 查看我们的最新教程 并学习如何使用 Python 中的 Ragas 和 watsonx 评估 RAG 管道。
这篇文章有帮助吗?
是的不