最近生成式AI发展路线的分岔情况愈演愈烈,“大”和“小”的路线之争正在登上舞台中心。
在“大”的路线上,OpenAI的CEO抛出了7万亿美元的筹款计划,筹建满足未来AI开发算力需求的半导体工厂。7万亿相当于全球GDP的近十分之一,耗这么大投入全给AI,至于吗?很明显,OpenAI的CEO认为至于。
而在“小”的路线上,前两年的谷歌Gopher、英伟达MT-NLG这些高达几千亿个参数的大模型似乎没了更新,反倒是谷歌最近发布了面向个人AI开发者的函数库localllm,开发者只要在谷歌云开发环境中使用本地CPU和内存就能执行量化模型,免去对GPU计算资源的依赖。同时,华为也发布了面向移动设备端的10亿参数小模型的研究成果。
怎么看待这一趋势变化背后的深意?一味追求更大规模模型的发展路线要转向了吗?
其实没有转向,因为模型本身的性质就决定了大参数的表现要更好。在GPT-1出来之前,业界通常能做一个百万至千万参数级别的模型,那会像谷歌的BERT模型能做到1亿参数量就让人觉得是天量了。直到后来GPT-3直接做到千亿级别,模型的输出才实现了质的飞跃。
但是这么大参数的模型的开发运行就意味着更大的成本,预训练阶段一次就是几千个GPU运行十几天,而到推理阶段又是几十个GPU维持日常推理需求。结合云GPU服务商现在3至4美元一小时的价格,再粗略算上日常运营的基础成本,一年的成本至少就奔着数百万美元去了。
所以在实际的成本情况下,再考虑到还看不清楚的投入回报,是否还要一味追求更大规模的模型,就会出现迟疑和权衡。
目前的现状是,现在ChatGPT的应用让用户和企业都看到了生成式AI在商业领域的可能性,但付费用户除了日常不定期使用再没找到增加用量的机会,企业试用后还没有充分印证投入回报比,对于性能表现和数据隐私方面的疑虑也没有被完全打消。
也正是因为这种现状,才让各方积极推动生成式AI模型在移动设备和个人开发平台上的适配,把模型做小做快,在性能上进行折中,降低开发门槛,期望能出现新的杀手级应用。
我能观察到,大模型和小模型之间的竞争合作将会构成生成式AI发展进程中的双重引擎。大模型在持续引领和扩展技术边界,小模型则以轻量高效和专注特定任务的能力体现应用价值。这种动态竞争也为应用开发者提供了多样化的选择,加速推出更智能、更个性化的生成式AI应用。