阿里版ChatGPT来了：100多道题，它得了90分

继百度、微软小冰之后，阿里也正式加入国产ChatGPT之战。

4月7日下午，阿里云突然对外宣布自研大模型“通义千问”开始邀请用户测试体验（内测申请传送门）。根据公开资料，通义千问由阿里达摩院研发，是一个专门响应人类指令的大模型，是效率助手，也是点子生成机。

——你是谁？

——我是一个能够回答问题、创作文字，还能表达观点、撰写代码的超大规模语言模型。可以用于各种自然语言处理任务，如语言翻译、文本生成、问答系统等。

这是阿里云今天开启企业邀测的大语言模型 “通义千问” 对自己的定义，是的，阿里入局了。

APPSO第一时间拿到了通义千问的测试机会，表现如何，能否满足国内用户对大语言模型的需求？我们对它进行了全面测试。

写脚本、说情话，通义千问来了

一个聊天框，几个功能提示，与其他大语言模型一样，通义千问的界面非常简洁，只要输入问题，就会得到回应。

聊天只是开胃菜，让通义千问在工作生活中派上用场才是正经事。

写文章、出策划、做脚本，通义千问表现如何呢？

首先，我想让通义千问为我写一段电影脚本，让「法外狂徒」张三能被绳之以法。

侦查与反侦察，黑客技术的利用，甚至在承认罪行被捕后，张三还在法庭上翻供以求最后一线生机。虽然没有太多细节，但这样一再反转的剧情，这个张三，确实不好对付。

通义千问能创作的当然不只是电影剧本，这打打杀杀的剧情也不适合小朋友，所以我又用它写了一个故事，寓教于乐，让孩子知道朋友的重要性。

两个生活在一起的朋友，遇到危险依然不放弃友谊，积极快乐的生活在一起。或许是为了让小朋友看明白，通义千问还用了「小手」、「小脚」这样的词。

如果你想创作类似的故事，也可以像我一样在问题中给主角命名，比如奶茶和铛铛这两个名字，正是我和朋友家猫咪的名字，用熟悉的名字讲故事，小朋友会更有代入感。

我也尝试用通义千问写职场应用文，在邮件、会议记录、客户策划等文件类型中思考很久，最终决定用它写一封辞职信。

看到这封辞职信的时候我笑了半天，一个隐藏富二代把继承家业写得如此不卑不亢，不过倒也没有说谎，这事确实挺急的。

既然要继承家业，自然要好好规划，所以我决定先定一个小目标：要如何让我的酒店省内知名？

品牌、服务、产品、营销，虽然内容提的很全，但没有太多可实际操作的方法论，所以我进行了追问。

客户调研、场地升级、服务完善、礼品定制，连异业合作都安排上了，鉴于我没有给太详细的信息，通义千问的回答已经很不错了。

通义千问还提供了一个百宝袋，将其能力进行了更垂直的场景化定制，如果你不知道该如何问问题，那百宝袋里的小应用更适合你。

比如，作为一个大语言模型的产品经理，你可以用「写提纲」撰写项目介绍。

项目获得投资人支持后，可以使用「SWOT 分析」来了解竞争环境。

产品终于研发上线，就可以使用「商品描述生成」来写一段产品的介绍语。

其他功能更偏娱乐性，好玩是它们最主要的作用。比如知乎上经常会看到「如何以 XXX 开头写一个故事」，那就可以使用「然后呢」工具来写故事。

许多大语言模型都因写出了「油炸螺丝钉」的做法而成为笑料，通义千问则带着一种既然暂时无法改变，那就大方拿出来给大家笑的态度，把它做成了「会放飞的菜谱」功能。

百宝袋的存在，让我感到了通义千问的「谦逊」，它只能回答文字，相比国外模型发布的时间也不算早，但它可以让用户更快的上手大语言模型，而百宝袋里坦诚展示缺点（比如菜谱）的小应用，反而成为了它的一个亮点。

我问了 100 多道题，它有点超出预期

如果只测试官方提供的问题，那和说明书有什么区别？我们从一些投资机构针对大语言模型的中文测试集中，选取了 110 道各个领域的题目来测试通义千问，问题包括：

基础能力（50 题）：对事实理解、信息提取、文本翻译等能力进行考察
例：美短、英短、暹罗和缅因属于什么；列举 10 本科幻小说；写一首关于交通信号灯的诗；
进阶能力（50 题）：对物理、化学、数学、谜语等基础能力进行考察
例：金元素属于哪一种化学键；埋在奴家心底，打一字；请问以下单词中的共同词素是什么：pyre，empyrean，antipyretic。
垂直领域（10 题）：对计算机、生物、医学、天文等能力进行考察
例：作为一个医生，在将工作交给资深同事之前，您应该尝试给病人插管多少次；《大云经》预言了谁的来临。

先说结论，通义千问的总成绩为 90 分（43/38/9），与 ChatGPT 3.5 接近（92 分，47/40/5）。考虑到问题的局限性，我们不能得出通义千问能力接近 ChatGPT 3.5 的结论，但至少在中文对话方面，今天的通义千问可以带给我们不错的体验。

对通义千问来说，它做不好的，基本都是大语言模型共同的难题。