两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
中国的航空发动机现在是什么水平?
***如古代长城用的是C140混凝土,那千百年下来会完整的留存至今还是损坏的更加严重?
新手养鱼,养什么鱼好?
uni***真的很垃圾吗?
postgresql也很强大,为何在中国大陆,mysql成为主流,postgresql屈居二线呢?
如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架?
有个自闭症的孩子,该放弃吗?
有没有免费的语音转文字的软件?
媒体称以色列防空成本一晚近 3 亿美元,最多再撑 12 天,美方会支援吗?若无美补给结果会如何?
黑客为什么可以做到无需知道源码的情况下找出系统漏洞?
如何评价《灵笼 2》第六集?
如果苹果真的下架了微信的话,会发生什么?
猫那么爱干净,却为什么不喜欢洗澡?
汤姆·克鲁斯在国外算几线?
用玉米钓不到鱼是什么原因?
写业务的话,go是不是垃圾?
为什么还有那么多人认为蔚来会倒闭?
为什么国外网站总喜欢弹出cookie访问权限弹窗,国内网站却没有,这么做有什么意义?
为什么有的女生喜欢穿紧身牛仔裤?
如何评价字节跳动开源的 Netpoll?
怎么才能有尤雨溪一半强,该怎么学习?
移动工作站和游戏本在工作中哪个好?
周杰伦为什么不告粥饼伦黑伦侵犯他的名誉权?
大海捞针还捞着了是一种什么样的体验?
胸大的女孩子有什么烦恼?
Go 语言的使用感受是什么?
曾经的班花,现在还多少人惦记?
如果将几百核心的服务器 CPU 当作 GPU 使用,会发生什么?
为什么 Windows 没有比较成熟的第三方桌面环境(explorer.exe)?