一些人类的工作完全可以被替代。
北京时间 3 月 15 日凌晨,OpenAI 发布了新一代大模型 GPT-4。
大模型就是在 ChatGPT 背后最重要的存在,大模型的性能,直接决定了表现在外、呈现给用户答案的聪慧程度,因此本次 GPT-4 的发布在数周之前就已经是让人津津乐道的话题。
如今,这个能再一次掀起 AI 浪潮的重磅炸弹终于落地,同时带着三个方向的新改进,试图进一步加固 OpenAI 在这一领域的统治地位。
长内容识别
首先是 GPT-4 的长内容识别能力:更新迭代之后的 GPT-4 能快速理解最高 2.5万字输入内容,同时并整合总结。同时在内容推理能力方面,GPT-4 也远强于 ChatGPT:在你发送一篇长文或是财报给 GPT-4 后,它不仅能更快的生成梗概总结,同时还能以更加精炼的语言,帮你「抓重点」,简直是学生党复习以及分析师看财报的利器。
之前网络上热衷于让 ChatGPT 参加的各种人类考试,现在 OpenAI 也亲自下场,带着 GPT-4 来到了做题家们的主场挑战:按照 OpenAI 公布的结果,让 GPT-4 与 ChatGPT 同时参加律师资格考试,前者能拿到前 90% 的成绩,而后者虽然能通过测试,但也只能拿到倒数 10% 的排名。如果参加的是生物奥林匹克竞赛,两者的差距还能被进一步拉大。同理,参加人类类似托福、LSAT、GRE 等语言考试也能得到类似的结果。
图像识别
本次 OpenAI 宣布另一个 GPT-4 升级重点是加入了对输入图像内容的支持:GPT-4 能自行理解输入图像的内容以及寓意,同时给出准确的回复。比如给衣柜拍张照片,然后要求 GPT-4 生成一份旅行衣物单。或者把你准备好的食材放在桌子上,拍照发给 GPT-4,问问它这些材料能做出什么食物。
GPT-4 能自动识别图中的食材究竟是什么,并自动根据这些内容给出适当的组合答案。
在官方演示中,GPT-4 甚至还能帮你翻译梗图其中的意思:或许下次你在上网冲浪时,如果网友再给你发一些看不懂的梗图,可以先拿来问问 GPT-4。
但最能展现 GPT-4 图像识别性能的桥段,可能还是发布视频中演示的场景:主持人在笔记本上画出了一个网页的草稿,然后用手机拍下来,发送给 GPT-4,要求其生成这个网页的代码。
紧接着,一个网页的代码就出现在 GPT-4 的回复中:这是一个可以直接完整运行的网页代码,这一过程仅用了不到两分钟,生成网站代码更是只用了不到十秒钟。
这场演示,不仅让人看到 GPT-4 在代码生成方面的巨大潜力,更会让人不由得产生一种「人的沟通才是拖慢 GPT-4 运行效率的原因」的感觉。
更安全,更可靠
之前在 ChatGPT 中,一个饱受诟病的问题是它经常会「不懂装懂」:在涉及到事实性的提问对话中,ChatGPT 有时会一本正经地给出完全错误的答案。更严重的问题是 ChatGPT 经常还能「引经据典」地佐证自己完全错误的结论,甚至回答缜密到能把很多专业作者误导。这一现象毫无疑问加剧了很多用户对于 AI 大模型的不信任。
到了 GPT-4 发布时,OpenAI 将回答内容的事实核查作为了本次升级的重点,同时宣称 ChatGPT 4 更安全,也更加可靠:
我们花了 6 个月的时间使 GPT-4 更安全、更一致。 在内部评估中,与 GPT-3.5 相比,GPT-4 响应禁止内容请求的概率低 82%,产出正确事实结果的概率高 40%
换言之,GPT-4 在回复内容的事实核查以及有害内容的阻断上做出了明显的改善。OpenAI 也公开承认这要得益于过去 ChatGPT 海量的用户数据给大模型优化带来的助力,用越来越多的数据来创建更加强大的语言模型。但 OpenAI 仍然在公告中强调:「我们正在与第三方研究团队合作,对错误答案的潜在影响作出评估」。
以及最重要的是 GPT-4 也与之前发布的 ChatGPT 3.5 相同的问题:GPT-4 储存的数据截止至 2021 年 9 月,与之前的 GPT 3.5 相同。这仍会在一定程度上限制 GPT-4 的应用场景:比如上面提到的「解释梗图」功能,如果 GPT-4 本身不能跟上当前热点的话,或许也很难准确把握其中的精髓所在。
应用
虽然今天是 OpenAI 的正式发布日,但在此之前作为大股东的微软已经按耐不住很久了:不仅微软德国 CTO 在一周前「说漏嘴」表示 GPT-4 即将发布,今天 GPT-4 终于正式发布后,微软也迫不及待地宣布 New Bing 早已经用上了 GPT-4:并表示「如果你在过去五周内用过(New Bing),那么你其实已经体验过 GPT-4 的早期版本了」。
不过很多用户之所以在 New Bing 的使用中没有感受到和 ChatGPT 明显的区别,OpenAI 解释的原因「对话复杂度不够」,换言之就是日常闲聊提问并不能快速区分出 GPT-4 与 GPT-3.5 的区别,只有当问题足够复杂、需要同时处理的信息足够多时,GPT-4 能更好地区分细枝末节的优势才能体现出来。
除了早早就「走关系」用上 GPT-4 的 Bing,其他与 OpenAI 有合作关系的、首批使用的应用服务与机构也在今天被一并公开:例如语言学习服务多邻国于今天宣布推出整合 GPT-4 能力的 Duolingo Max 服务,在现有的付费订阅功能基础之上还提供问题解答以及错误解释功能。
为视障人士提供服务的公司 Be My Eyes,也宣布将使用 GPT-4,来改变现有的视觉辅助识别服务:他们开始在应用程序中加入基于 GPT-4 开发而来的视觉驱动模块,测试结果「能产生与人类志愿者相同水平的理解内容」。
按照 OpenAI 的说法,从去年 11 月延续至今的 ChatGPT 全球爆火,他们也「完全没有预料到」。
他们或许更加没有预料到,伴随着 ChatGPT 爆火而来的,是席卷全球的一次 AI 产业革命。今天 GPT-4 的发布无疑是在这堆火焰之上添加了新的燃料。
目前,订阅 ChatGPT Plus 的用户已经能先期体验到 GPT-4,几乎没有人会怀疑之后 ChatGPT 的迭代速度会越来越快。
作者:张勇毅,观点代表个人。本站不对内容的真实性及完整性作任何承诺。