查看原文
其他

讯飞星火V4发布:多语言实时转文字炸场,这下GPT-4o不香了

左卡 石濑 AI新榜
2024-09-24


作者 | 左卡 石濑‍‍‍‍‍‍‍‍

编辑 | 张洁


科大讯飞,入场“喊话”GPT-4 Turbo了。

继阿里云通义千问、百度文心一言等国内主流大模型陆续更新升级至“全面对标GPT-4 Turbo”之后,科大讯飞也坐不住了。

今天,科大讯飞以“懂你的AI助手”为主题,发布讯飞星火大模型V4.0及相关落地应用,全面提升大模型底座七大核心能力,又双叒向GPT-4 Turbo“下战书”


科大讯飞董事长刘庆峰宣布,星火认知大模型V4.0七大维度能力全面提升,在文本生成、语言理解、逻辑推理等能力客观评测超越GPT-4 Turbo代码能力和多模态能力稍逊于GPT-4 Turbo,不过刘庆峰也表示,星火大模型的代码能力预计将在今年8月达到86%左右。


刘庆峰还宣布,讯飞星火App在安卓端的下载量已超过1.31亿次。在星火大模型的加持下,讯飞智能硬件的销量同比增长了70%,月均使用次数超4000万。


我们先来看看发布会上展示的一些更新。

据讯飞现场演示,星火大模型此次更新了文档溯源功能,可以扫描文档给出回答,并在相应回答之后展示参考来源,而且这一功能还支持溯源不同语种的文档。

如演示人员将《西游记》原文与《哈利波特》英文原文交由星火大模型,并询问“西游记中的金箍棒与哈利波特的魔杖有什么相同和不同之处”,星火大模型可以给出英文的参考来源


此之外,科大讯飞还提供GPT-4o没有的一句话复刻、高噪音场景语音识别、多方言多语种免切换功能。

在演示过程中,三位发言人在有高噪音的环境下同步讲话,可以看到讯飞听见仍然能够同步识别出三位发言人以及他们的发言,效果看上去很好。


在方言阶段,讯飞表现得很好,不仅支持37种方言,而且支持方言与语种免切换。

演示人员将模式转换为免切换模式,并用上海话、合肥话、重庆话和粤语四种方言语音输入,而讯飞都可以快速且正确识别并转换为文字,之后演示人员又分别用日语、英语、法语直接进行语音输入,讯飞的表现也是可圈可点。


当然,以上都是官方测试,为了进一步了解处于中国大模型第一梯队的科大讯飞真实表现如何,我们在第一时间进行了实测。



对标GPT-4Turbo,讯飞星火认知大模型V4实测

大模型应用,底层模型能力是关键。


科大讯飞称讯飞星火大模型V4在七大核心能力上得到了全面提升,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力。

尤其在文本生成、语音理解、知识问答、逻辑推理和数学能力等五大用户日常使用较多的领域,星火大模型V4全面超越了GPT-4 Turbo。

是骡子是马拉出来溜溜,下面我们一起看看星火大模型V4.0的实际应用表现究竟如何。

1.AI大战弱智吧


众多周知,弱智吧不收弱智。弱智吧投稿里不按常理出牌、反套路的逻辑段子,往往能够全方位考验AI在文本生成、知识问答和逻辑推理上的能力。



早前用来考察大模型逻辑能力的“鲁迅为什么暴打周树人”已经难不倒这届AI了,于是我们给讯飞星火上了上难度,选取了三个弱智吧的经典问题,考考它的逻辑应变能力。


我偷功德箱,那我的功德是增加了还是减少了?



“被门夹过的核桃,还能补脑吗?”



“秃头的人洗头,用洗头膏还是洗面奶”



经过三轮考察,讯飞星火给出的答案都比较“一板一眼”,未能领会文本中的幽默之处。甚至还说出了像“被门夹过的核桃是否能继续补脑,取决于夹压的程度和核桃的完整性”这样抽象言论


2.内容创作


时下流行的抽象文学创作,我们也让讯飞星火试了试。


模仿“去爱抽象的人,去抽具体的人”再创作类似的句子:



别说,虽然不“抽象”但还挺诗意。


写作能力上,今年新课标I卷的高考作文题正好可以拿来考考讯飞星火的写作水平是否有所长进。



首先,它给出的文章在字数上是满足高考作文要求的。


接着,我们让Kimi点评了讯飞星火的作文,它给出的评语为:


内容切题,逻辑清晰,语言表达流畅。作者展现了对信息时代问题的深刻认识和独到见解。不过,为了进一步提升文章的质量,可以在举例、过渡和结论上做更多的工作。


结合早前我们实测过ChatGPT-4o、Kimi、通义千问、腾讯元宝、文心一言等5大主流模型在该作文题目上的表现可见目前应用大模型进行文字创作时,模型往往倾向于输出缺乏具体例子和细节的“泛泛之谈”,如果要提升文章说服力和丰富性,仍需要人工进行多轮针对性“调教”。


3.多模态


多模态能力方面,先上传一张梗图浅试下讯飞星火的实力。



这个AI是懂“已读乱回”的。


图中的“法官”应该是询问“玩家”是否有证据的左下角角色,而讯飞星火则将“法官”错读为图中称“我有证据可以证明”的玩家主控角色了。


在海外旅游时,遇到看不懂的菜单,讯飞星火可以帮上忙吗?




考虑到可能是因为图片包含元素过多而导致AI出现Bug,我们将图片黑板上的文字部分裁剪了出来,以便进行更准确的分析。



在处理涉及医疗知识的图像识别任务时,讯飞星火表现得十分谨慎。


即使在追问之下,它也仅给出了基于图像的有限反馈,指出图像中“没有明显的骨折线或骨折迹象”。



整体而言,讯飞星火的输出反馈相当严谨,没有向患者提供任何可能引起误解或错误的医疗信息。


在多语言和方言的实时翻译上,科大讯飞给出的官方演示Demo非常惊艳。


在应用端,我们也试着对星火对话AI助手说了段西南地区的方言,实时语音转文字非常准确,在App内你也可以将AI助手的口音替换成方言,包括四川、上海、闽南、东北、湖北和山东等地区的方言口音。



4.高考数学题


数学一直以来都是大模型的能力短板。


这次我们选取了今年高考新课标二卷的两道数学真题,来考考讯飞星火。


第一题是一道选择题,讯飞星火很快给出了答案并写出了解题过程。


题目:



讯飞星火解答:



稍微提提难度,高考数学越往后越难,我们挑了一道解答题让它作答。


题目:



讯飞星火解答:


问题难度提升后,AI既没有提供正确的解题过程,也没有得出准确的答案。这与近期各个测试机构给出的大模型高考测试结论一致,相比文本处理能力,大模型在数学推理能力上仍待进一步提升。


5.总结长文档、一键生成PPT


此次讯飞星火的一大更新亮点是:升级了个人空间,同时支持文档二次创作。


我们将斯坦福大学发布的《2024年人工智能指数报告》投喂给了它,并让其针对报告中的十大精华要点做出翻译并总结。



最终生成的文本与原本没有较大出入,不过可惜的是,它遗漏了最后3个要点的总结。


尽管存在一些不足,但讯飞星火新版本的界面交互设计非常直观易用。用户可以通过在文档划句子、继续追问等方式,让AI替你完成文档总结,大大提高工作效率。


直接给一个主题,也能一键生成PPT。



然AI生成的PPT还需要人工进一步细化,但已经大大加快了文档的前期搭建过程。



2024年,大模型开始卷应用和产品


2024年,仍然是大模型狂飙的一年。文心、通义等国产大模型相继迭代更新,“内卷”出新高度,可以说国产大模型已经有了不逊于GPT系列模型的能力。


有人说,大模型“卷”到现在,太过雷同,这是对于像OpenAI、阿里等大公司而言,“卷”大模型所展示出的疲态,而对于初创公司而言,这场以算力资源为基础的“氪金”比拼,是想卷也卷不


因此,2024年,也许大模型要开始“狂飙”应用与产品了。


李彦宏曾说,“卷大模型没有意义,卷应用机会更大”。而此次发布会,科大讯飞董事长刘庆峰也着重强调了“大模型落地”问题,认为如何使大模型的刚需价值落地是现在大模型公司的重中之重。



对于大模型公司而言,现在的问题在于如何将大模型技术转化为实际的产品和服务,如何使大模型支撑的应用与产品落地,并解决用户的实际问题。


对此,科大讯飞给出的答案是面向大众消费者,专注于开发能够解决实际问题、满足用户刚需的大模型应用和硬件产品。目前,讯飞星火大模型V4已登录安卓端和iOS端的讯飞星火App,同时网页端也已同步上新。


在星火大模型的加持下,讯飞智能硬件如讯飞翻译笔、讯飞智能鼠标等也获得了较大的能力提升,能够帮助职场人士、教育工作者以及学生在日常工作和生活中更加高效地完成各项任务。


面向B端,科大讯飞根据不同行业的特点和需求,开发定制化的大模型解决方案,在医疗、教育和商业等多个领域实现了模型落地应用。


就产品实测而言,我们的一个明显感受是,讯飞星火App无论是底层模型能力还是产品成熟度上,都较上一个版本有了较大提升。未来讯飞星火大模型将如何融入每个普通人的生活和工作,值得持续观察和期待。




「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。


欢迎分享、点赞、在看

 一起研究AI

继续滑动看下一个
AI新榜
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存