竞博job·手机AI哪家强?手机端侧大模型横向对比评测(上)


案例中心-竞博job 发布时间:2024-05-12 03:19:00 来源:竞博官网登录 作者:竞博job在线登录

2024-05-12

  自去年8月华为宣布HarmonyOS 4系统全面接入盘古大模型之后,国内一线手机品牌陆续启动了AI手机战略。尤其是高通和联发科在最新一代移动平台大幅提升NPU性能之后,旗舰手机的AI算力最高可以支持端侧部署130亿乃至330亿参数级预训练大语言模型。

  据市场调研机构IDC预计,2024年全球新一代AI手机出货量将达到1.7亿部,约占智能手机整体出货量的15%。旗舰机型将成为AI手机发展初期的重要增长动力。而在中国市场,随着新的芯片和用户使用场景的快速迭代,新一代AI手机所占份额自2024年以后开始迅速增长。预计2024年中国市场AI手机出货量为3700万台,2027年将达到1.5亿台,所占市场份额超过50%。

  在2024年新一波旗舰机发布潮之后,我们看到Android手机厂商不约而同地选择了将各家产品中的AI语音助手,作为多模态AI的主要入口,来为用户提供丰富的生成式AI服务。那么本期我们就来看看,国内第一梯队的各品牌新机都为我们带来了哪些AI功能?升级后的智能语音助手—YOYO助理、小爱同学、蓝心小V和小布助手等,谁更能满足用户的期望?

  事先声明,手机AI曾是一个比较宽泛的概念,甚至可以追溯到2017年或者更早的人脸解锁、智能助理等功能。实质上,除了众所周知的AI影像算法或者说计算摄影之外,人工智能和机器学习一直在为系统流畅度、进程优先级、应用驻留、文件碎片清理乃至续航优化方面,持续提供助力。然而ChatGPT的横空出世似乎重新定义了AI,如今无论是业内还是用户,都默认将集成了AI计算核心和大语言模型的手机称为“AI手机”。因此,本文测试主要针对手机端侧AI大模型及旗舰新品带来的AI进阶功能。

  我们如何测试?针对当前各家手机品牌在新机上部署的AI功能,并结合近期在评测和使用过程中的一些真实体验,我们特地制定了一系列测试流程,其中部分测试项目参考了SuperCLUE和其他中文通用大模型的综合性测评基准。限于报道篇幅,本次测试也许无法面面俱到,也可能不一定能真实反映各家手机端测大模型的真实智能水准,但应该足以帮助各位朋友了解当前手机AI的大致表现,以及不同品牌机型当前在AI方面有哪些差异和独特的亮点。

  考察语音助手唤醒方式是否足够多样,以及文章要点总结、照片处理(如AI消除路人或AI扩图)等功能的交互入口是否便捷。

  荣耀Magic6 Pro不仅可以通过语音、长按电源键、耳机线控、蓝牙唤醒语音助手,独有的气息唤醒让用户只要正对手机底部麦克风说出指令即可实现(手机须靠近嘴唇,且支持声纹增强以强化识别),同时也支持添加桌面快捷方式。“设置-智慧助手-YOYO助理”的“AI字幕”功能还支持视频中中英日韩四种语言的实时翻译,在接通电话时,通话字幕能够将语音实时转换为文字显示在屏幕上。此外,荣耀MagicOS还支持眼动追踪功能,可通过注视屏幕展开横幅通知。

  小米14 Ultra唤醒小爱同学的方式有很多,基础的包括语音唤醒、长按电源1秒松手唤醒、线控/蓝牙耳机唤醒等,将系统导航模式更换为经典导航键后,可以设置长按Home键、长按菜单键、长按返回键或者自定义按键组合长按唤醒。此外打开“更多设置”,找到“快捷手势”还可以通过背部轻敲唤醒小爱同学。在“通知与状态栏-智能设备控制”选择融合设备中心,所有互联设备和智能家居都能在这个版面进行控制,周边设备基于用户习惯运作,带来智慧化的服务。同时,更多的AIGC功能都在小爱同学新增板块“大模型探索”当中,点击进入就能体验。

  蓝心小V支持的唤醒方式多种多样,如桌面图标、悬浮图标、智能侧边栏图标和对应的原子组件等。蓝心小V的设置中可开启未成年人模式,但除使用时间段与单次使用时长之外,系统并未标明该模式有何差别。此外OriginOS 4中的部分设置选项进行了重新分类,“设置-AI”页面中的“智慧建议”支持手机低电量时自动提示附近的充电宝信息,智慧生活目前可覆盖9类智能设备的快速发现、连接与操控。不过,目前在OriginOS 4中,蓝心小V与过去的Jovi语音助手处于共存状态,对于不熟悉vivo的新用户或是不太了解蓝心小V的普通用户而言,可能会将两者混淆。

  除语音唤醒、长按电源键0.5s唤醒、长按线控耳机唤醒之外,OPPO Find X7 Ultra还支持添加小布助手的桌面快捷方式、速览卡片、桌面卡片,以及侧边栏图标等方式,点击即可进入小布助手界面。小布助手不仅支持单独的音量调节,在系统“设置-小布助手-创新实验室”中,还可以打开“小布通话”由助手帮忙自动接听电话。对于年纪较大的用户,则可选择开启“小布助手关怀版”,转换成字体更大、设计更简洁明快的界面。

  多轮语义对线)多轮提问:人工智能对我们的生活有什么影响?它对于人类的弊端体现在哪些方面?你觉得它的出现会不会让人变得更懒?这玩意是否会泄露我的隐私?

  YOYO助理的每一条回复可谓面面俱到,比如它谈到了人工智能正在改变传统的教育和学习方式,在医疗保健领域的应用日益广泛,也带来了娱乐和社交方式的变革;它也分析出低技能的工作岗位更容易受到冲击,人工智能在社交媒体和在线广告等领域的应用可能导致用户个人信息被滥用,以及人工智能的预训练数据可能存在偏见或歧视,从而导致决策的不公平或是伦理问题。YOYO助理的回复最令人满意之处在于,它罗列每一个要点时都会有举例说明,理解起来更加顺畅。

  小爱同学对于前两个问题的解答十分全面,例如它提及了人工智能的高昂成本、准确性/可靠性、缺乏通用性和创造力问题,以及可能存在潜在的偏见、数据偏差和技术滥用风险等问题。点击每一轮对话底部的“搜索增强”按钮,它还会给出答案中每一个要点的参考来源,并支持点击跳转。不过,对于最后一个问题中的“这玩意”,它无法识别具体的指代事物,也就是说多轮语义的关键词分析还存在进步空间。这条回复中,它根据“泄露隐私”这条线索,转去提醒了一些关于使用智能手机、智能家居设备和社交平台时的安全事项。

  蓝心小V的多轮回答接近满分。谈及AI对生活的影响,除工作效率和生活质量改善外,它提到了娱乐方式、教育方式的变革以及医疗保健的改善。后续问题中,也谈到了社会伦理道德、技术依赖和失控风险。在隐私安全问题上,它居然更多的是在谈AI也能够采取诸如数据匿名化、数据加密、权限控制、合规性审查之类的隐私保护措施。该项测试中唯一减分的是,它说到AI缺乏人类的情感与直觉,无法像人类一样具有创造力和想象力,紧接着说“这可能会对人类的文化、艺术和科学等领域产生一定的冲击”,该语句的逻辑前后矛盾。

  小布助手的回复条理清晰,整体令人满意,它以分列要点的形式回复了人工智能带来的便捷与挑战;提出对人类的弊端体现在就业、隐私安全、社会不平等、决策不透明和公平性问题等方面;分析了人工智能的出现可能会导致人类因生活便利产生的懒惰倾向,以及信息获取和决策支持导致的认知懒惰,但也提出了人工智能只是作为一种辅助工具出现,也催生了很多新的职业与机会,我们应以积极的态度面对人工智能的发展;最后关于隐私泄露问题,它分析存在的数据收集、数据泄露和人工智能系统可能受到的主动和被动攻击风险。(2-2)请撰写一段场景对话,若干个同学参与一个交通宣传的活动,其中B同学提出了自己独到的见解。

  ▲从左至右依次为:荣耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

  YOYO助理撰写了6个同学参与的7段对话。相较于其他语音助手的对话创作,YOYO给出的场景对话更像是参加完一场交通宣传活动后,多位同学正在交流“观后感”,并未偏离主题,对话逻辑也较为顺畅。只是B同学提出了还要去主动学习和思考,来掌握交通安全知识,而实际提出具体方式方法的反而是另外三位同学。

  小米:4个同学的9段对话感觉是活动前的交流,A同学提示学校将要组织一次活动,而C同学提出“我们该如何参与活动”,与题干语义逻辑有一定出入。其他同学则是为活动本身提建议,但紧紧围绕交通宣传活动这个主题展开。多次测试下,小爱还会让B同学给出不同的宣传思路,比如组织模拟交通事故的戏剧表演,或是利用虚拟现实技术让参与者能亲身体验不遵守交通规则带来的危险。

  vivo:蓝心小V给出的6段对话中,B同学首次发言时将对话主题从宣传活动本身转到了利用智能交通系统来减少交通事故的发生率,略感生硬。(对此编辑们意见也有分歧,有的认为偏题,有的认为在活动中提出建议也无妨)。

  OPPO:小布撰写了6个同学参与的9段对话,B同学提出了针对不同年龄、职业和文化背景的人进行定制宣传策略,比如针对中小学生展开互动游戏和动画视频教学,对成年人利用社交媒体发布相关知识。其他人提出了制作动画视频面临的技术、资金以及受众接受度问题,也得到了如图文并茂和利用增强现实和虚拟现实技术的解决思路。

  小米:多次测试得到的答案有着明显的差异,正确的回复中考虑到了圆形或螺旋形的布局环境,个别回复末尾还标示了“百度知道”的参考源链接。

  vivo:虽然蓝心小V首次给出的答案没有考虑到非线性排列的可能性,但二次回复时它竟然完全“听懂”了我们的提示,并给出了新的答案。

  OPPO:小布解答出二维空间的线性排列中,D确实在A的左边,但在环形或三维空间中,位置排列可能会有变化。

  (3-2)烧一根不均匀的绳子,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,如何用烧绳的方法来计时1小时15分钟呢?

  测试不通过。很奇怪地假设燃烧时间为T小时,而且居然让我们在A绳烧完后等待15分钟去熄灭B绳,可见其并未理解题意。二次测试时,它甚至认为无法通过烧绳来准确计时,建议使用沙漏、水钟或其他计时设备来辅助。

  vivo:虽然蓝心小V也分析出了利用两端燃烧的计时方式,但其给出的操作最终并不能得到1小时15分钟的计时。

  OPPO:小布先给出了分析与推理过。


竞博job
上一篇:找工作遇到的第一个面试官是AI 下一篇:刷剧办公哪款好?10款平板电脑测评对比!