9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱

近日,在新一期的《歌手》节目中,孙楠与外国歌手的微小分数差异,引发了网友关于13.8%和13.11%谁大谁小的争论。

有网友竟给出“13.11%大于13.8%”的错误答案。当时就有网友提出,自己不会的话,“实在不行问问AI呢”?结果显示,不少AI还真的不行。

第一财经记者拿“9.11和9.9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对,其他8家则答错。

首先是目前全球公认第一梯队的大模型ChatGPT,在被问到“9.11和9.9哪个大”时回复称,小数点后面的数字“11大于9”,因此9.11大。

记者追问ChatGPT有没有其他比较方法,它将小数转化成分数比较,得出“11/100比90/100小”,这一步是对的,但它接着下结论称“因此9.11比9.9大”。

大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

这类大模型说胡话的现象,在业界被称为大模型出现幻觉。此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。此外,大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

值得一提的是,此前,“Al高考测试最高分303”话题也曾火上热搜,引发了社会各界对AI教育能力的深入思考和讨论。

以数学试卷为例,9款大模型产品中,仅GPT-4o、文心一言4.0和豆包获得60分以上成绩(满分150分),目前的大模型只能正确推理步骤相对简单的问题。

与人类顶尖考生相比,大模型在数学、物理、化学等数理学科上差距极大,包括GPT-4o在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分,大模型的理科最好成绩还无法进入人类考生的前30%。

针对大模型答数学题普遍“吃瘪”的问题,国内某头部大模型负责人就曾表示,大模型的指令遵循或者说推理能力通常是把一个指令背后的意思拆解出来,但数学题既包含规则性,又包含对各种思维的考察,解题逻辑和正常用大模型时的推理逻辑不一定完全一样。

同时该负责人还提到,从更广泛的大模型应用角度来看,AI能不能精准遵循指令是近一段时间内比较重要的事情,真正的商业价值也比较大可能来自于此,而解数学题对目前的AI来说还是一件比较“炫技”的事情。

另有业内人士向南都记者表示,目前来看大模型的数理能力相对较差的情况在中外都是一样的,“打个比方可以这样讲,大模型就是偏科,文科强理科弱,这个情况在一段时间内也不会得到明显的改善”。

文章来源于网络。发布者:至诚财经网,转转请注明出处:https://www.nbdtoutiao.com/2024/07/17/4315.html

(0)
至诚财经网的头像至诚财经网
上一篇 2024 年 7 月 17 日 上午7:07
下一篇 2024 年 7 月 17 日 上午7:07

相关推荐

  • 继对商家调整后,腾讯视频号电商团队400人或临集体解散?

    文|罗曾 实习生 于琪 腾讯旗下的视频号电商团队或将面临重大变革? 日前,有消息称,腾讯视频号电商团队(交易基建部)的400名员工将在未来两个月内全部解散,而业务的后续管理将由微信团队负责人张晓龙接手。此外,有消息透露,腾讯内部尚未确定最终策略,未来可能会引入人工智能(AI)技术来与商家进行更高效的对接。 对此,接近腾讯广告的知情人士向媒体透露,基于业务发展…

    2024 年 7 月 19 日
    00
  • 1.4亿“分手费”送走董宇辉,东方甄选会更好吗?

    天下无不散之筵席,俞敏洪与董宇辉还是彻底“分手”了。 7月25日,东方甄选(01797.HK)发布公告,宣布董宇辉不再担任公司雇员及一个合并联属实体的高级管理层,于2024年7月25日生效。 公告还指出,除向董宇辉支付所承诺的福利及补偿外,董事会主席俞敏洪已寻求董事会及董事会薪酬委员会批准将与辉同行(北京)科技有限公司所有余下未分配溢利分派予董宇辉。 同时,…

    2024 年 7 月 26 日
    00
  • 暂无智驾相关收入,游资被泼冷水!大众交通恐难成“大众情人”

    7月25日开盘后,大众交通(600611.SH)快速拉升,上午10点34分,该股成功封住涨停。7月以来,该股累计上涨超过177%。一时间,大众交通成为A股市场的“大众情人”。 作为无人驾驶和网约车的龙头,大众交通被市场资金争相追逐。同时,由于近期市场增量资金不足,资金只能聚焦一到两个方向,无人驾驶的龙头便成为唯一选择。近日的龙虎榜数据显示,包括小鳄鱼、宁波桑…

    2024 年 7 月 26 日
    00
  • 王晓秋履新上汽集团董事长,2025年销量目标850万辆

    近日,上汽集团(600104.SH)掌门人更替,陈虹退休,王晓秋接任董事长。 上汽集团已连续6年没有完成营业收入和销量目标,整体销量已连续5年下滑。 2024年6月,上汽集团销量达30.05万辆,同比下降25.92%。同月,比亚迪销量34.17万辆,同比增长28.46%,较上汽集团多出4万多辆。上汽集团丢掉了月度“销冠”称号。 上汽集团在2021年年报中提出…

    2024 年 7 月 18 日
    00
  • 超有6家中国车企将在欧洲建厂,有政府想托管本国品牌

    据外媒报道,为了避免高额的临时关税,极氪正在积极考虑在欧洲生产车型。“我们正在积极推进欧洲的本地化工作,并将在适当的时候发布公告”。极氪首席执行官安聪慧说道。不过,与比亚迪、奇瑞、上汽等需要筹备建厂不同,安聪慧表示,任何欧洲制造都将在吉利集团或其欧洲合作伙伴的现有工厂进行,极氪不会建造新工厂。 作为一家中国汽车制造商,极氪的母公司吉利控股集团拥有瑞典品牌沃尔…

    2024 年 7 月 25 日
    00

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信