当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
有没有什么惊为天人的 Logo 设计?
哪张照片让你觉得刘亦菲美得不可方物?
腰突怎么办25岁?
为什么iPhone各方面都是顶配,却唯独信号不好?
脸与身材不符是种怎样的体验?
鱼缸里突然在水面角落出现很多想泡沫一样的气泡是怎么回事?
如何评价陈楚生在《歌手 2025》第六期演唱的《未来的主人翁》?
为什么这么多人说 Gmail 好用?Gmail 和 QQ 邮箱相比到底好在哪里?
吃爽了是怎样一种体验?
以色列是如何从三天前的不可一世要灭了伊朗到今天的哭哭啼啼要“为生存而战”的?
编程语言 MoonBit 发布 Beta 版,正式进入企业场景应用,会带来哪些影响?
如何评价英伟达 NVIDIA 的总裁黄仁勋?
这种裙子是不是对直男爆杀?
如何看待M4单核性能吊打9950x?
《葫芦兄弟》中七个葫芦娃谁的能力在现代用处更大?
你怎么看待剪映收费过高问题?
始终怀不上孕是种怎样的体验?
刘强东称「京东外卖很快就会出来一个跟美团完全不同的商业模式」,如何看待此回应?
OSI 协议与 TCP / IP 协议有什么差别?
在武汉,你们的找对象标准是怎样的?
《酱园弄》电影你期待哪位演员的表演?
Swift 和同时代的其他语言比起来怎么样?
为什么感觉现在的 bilibili 很没意思?
在武汉的你,择偶的标准是什么?
Caddy 和 Nginx 比有哪些优点和缺点?
从零写一个3D物理引擎难度多大?
网络小白如何建立一个网站,供别人下载文件(主要是PDF和MP3)?
为什么 macOS 并不差,可市场总敌不过 Windows?
有个亲妹妹是什么感觉?
如何评价中国电科研发的JY-10防空指挥控制系统成为伊朗防空指挥系统核心?