大模型测不出9.11和9.9哪个大_大模型集体失智!9.11和9.9哪个大,几乎全翻车了

时间:2024-07-19 15:35:57 推荐 350

大模型测不出9.11和9.9哪个大_大模型集体失智!9.11和9.9哪个大,几乎全翻车了是特别多小伙伴都想了解的内容,下面小编为大伙儿整理的大模型测不出9.11和9.9哪个大_大模型集体失智!9.11和9.9哪个大,几乎全翻车了相关信息,欢迎大伙儿的分享收藏哟!

大模型集体失智!9.11和9.9哪个大,几乎全翻车了

近期,一个看似简单无误的咨询题——“9.11和9.9哪个更大”——竟让众多顶级人工智能模型陷入了尴尬境界。就连大名鼎鼎的GPT-4o也坚信9.11更大,谷歌的Gemini高级版与新星Claude3.5Sonnet亦步亦趋,给出了令人费解的解答逻辑。这不禁让人质疑,竟然AI世界正在联手编织一场对人类的“知识欺骗”?

来自艾伦AI研究所的林禹臣尝试了不同数字,GPT-4o依旧未能幸免于难,凸显了AI在处理基础常识与数学直观能力上的矛盾:它们在解复杂的数学咨询题上日益精进,但在简单的事实推断上显得力不从心。

一些网友提出,假如将咨询题置于软件版本的上下文中,9.11版本真的表示较新,思考到AI由软件工程师开辟,这一点大概提供了些许解释。但是,咨询题的核心在于,为何这些先进的模型会在基本比较上栽跟头?

这一切的发现归功于首位全职提示词工程师RileyGoodside,他在与GPT-4o互动时首次撞上了那个“知识盲区”。虽然试图经过更精确的提咨询方式来规避,如限定在“实数”范畴,但结果并未改善。有趣的是,调整数字的提咨询顺序有时难道能触发正确的回应,揭示了AI对咨询题表述敏感性的微妙之处。

关于中文环境下的大模型,我们也进行了相似测试,发现它们的表现参差不齐。有的直截了当给出错误答案,如Kimi;有的尽管尝试经过网络查询来辅助,如文心一言,却在最后关头给出了误导性的结论。相比之下,腾讯的元宝和字节跳动的豆包在理解并正确回答咨询题上表现得更为出色,显示了它们在处理此类咨询题时的清楚逻辑。

深入探索,AI的困惑源于其基于令牌(token)的理解方式。例如,9.11在分拆后,“11”作为单独的令牌数值较大,导致模型误判。此外,训练数据中对这类基础数学比较的缺乏也是一个关键因素。

Goodside后续的实验表明,特定的提咨询格式是引发错误的关键,而非模型固有的缺陷。正确的引导,尤其是明确指出这是双精度浮点数的比较,能有效避免此类错误。这也激发了人们探究怎么优化提示策略,以确保AI可以准确理解并回答咨询题。

此外,对于OpenAI新模型“草莓”的泄露信息,尽管在数学难题上展现出色能力,但关于“9.11与9.9哪个大”的基本咨询题,人们的信心并不充足,期待实际测试结果揭晓谜底。

这一系列事件不仅暴露了AI理解能力的局限,也促使研究者和开辟者反思怎么优化算法和训练数据,以提升模型在基础逻辑推断上的准确性。

以上算是小编给大伙儿带来的大模型测不出9.11和9.9哪个大_大模型集体失智!9.11和9.9哪个大,几乎全翻车了全部内容了,希望对小伙伴们有所帮助。

来源:多特软件站