ChatGPT一周年|ChatGPT写了段总结,给自己打了这个分数

【编者按】2022年11月30日,可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出聊天机器人ChatGPT。它不仅催生了人工智能界的又一轮高光期,还并不常见地被誉为“蒸汽机时刻”、“iPhone时刻”甚至“钻木取火时刻”。

这一年来,被称为“生成式人工智能”的革命性技术激发了全球科技界“把所有软件和硬件重做一遍”的冲动,让具有先发优势的AI基础设施提供商价值暴涨,使得从医疗到航天的科学探索获得被加倍赋能的前景,传说中“奇点”的到来从未变得如此具有可能性。

正如历史上任何一次技术变革,ChatGPT也给我们带来了深深的焦虑。既有对AI威胁人类生存的科幻式恐惧,也有对砸掉我们饭碗、骗取我们钱财、操纵我们心灵的现实担忧。连OpenAI自身,也刚刚经历了一场危机,差点没躲过一夜坍塌的命运。

这一年让我们产生了更多疑问:大语言模型下一步的进化方向是什么?训练数据快要耗尽了吗?如何看待中国的大语言模型发展?AGI(通用人工智能)是否会存在其他形式?为此,澎湃科技(www.thepaper.cn)询问了ChatGPT本尊,请它回答这些问题并给自己做一个年度总结。

其中,ChatGPT-3.5版本无法对部分问题提供具体信息,因此部分问题使用了ChatGPT-4.0版本。

以下为澎湃科技与ChatGPT的对话:

澎湃科技:ChatGPT推出一周年了,如果让你用3个关键词来形容ChatGPT发布后对行业的影响,你会用哪3个形容词?为什么是这3个词语?

ChatGPT:创新、智能化、交互性。

“创新”是因为ChatGPT的推出标志着自然语言处理领域的一项重大进展,开创了更高级的对话型人工智能。“智能化”强调了系统的智能程度和对复杂任务的适应能力。而“交互性”突显了用户能够与系统更自然、动态地交流,这对用户体验和应用场景的拓展都具有重要影响。

澎湃科技:过往一年,你怎么总结ChatGPT的表现?会打多少分?写一段年终总结吧。

ChatGPT:ChatGPT在过去一年中表现出色,取得了显著的进展。它成为自然语言处理领域的一项重要创新,为用户提供了更灵活、智能的对话体验。通过持续的更新和改进,ChatGPT在语境理解、回答问题以及生成自然语言文本方面取得了显著的成就。

然而,也要认识到一些挑战,例如在处理复杂或专业性话题时可能存在理解不足的情况。尽管在普通对话中表现卓越,但在某些情境下仍有改进的空间。未来,期望看到更多关注于提高模型的适应性和解决实际问题的努力。

综合考虑,给予ChatGPT过去一年的表现8.5/10的评分,看到了许多令人振奋的进展,但也认识到未来仍有继续改进和发展的机会。

澎湃科技:过去一周,OpenAI公司发生了戏剧性的变化。Sam Altman(注:OpenAI创始人山姆·奥特曼)重新回归,可能说明OpenAI在商业化扩张与对安全的重视之间,最终选择了前者?这与你们的使命冲突吗?

ChatGPT:过去一周,关于Sam Altman重新回归OpenAI领导岗位的消息并没有得到官方确认。至于OpenAI的使命和战略方向,它始终致力于促进和发展人工智能,同时确保其安全和有益。这包括在商业化和安全性之间寻找平衡。

OpenAI的使命是确保人工智能的发展能够以有利于全人类的方式进行。这意味着在开发商业产品和服务的同时,也需要考虑到安全性、伦理和社会影响。因此,公司的战略可能包括商业化的扩张,但这并不意味着会牺牲对AI安全和伦理的重视。

总的来说,OpenAI的目标是创造正面的社会影响,并在推动技术创新的同时,确保技术的使用是安全和负责任的。如果有关于OpenAI方向和策略的具体更新,它们通常会通过官方渠道公布。

*注:这个问题因为涉及最新信息,3.5版本回答不出来,所以改问4.0版本。以下问题都使用了4.0版本。

澎湃科技:过往一年,以ChatGPT为代表的AI技术应用到各个不同的场景中,也引发了不少关于法律的纠纷,怎么看ChatGPT带来的法律风险和挑战?

ChatGPT:过去一年,以ChatGPT等AI技术的广泛应用确实在法律领域引起了许多讨论和挑战。这些挑战主要集中在以下几个方面:

1. 版权和知识产权:AI生成的内容(如文本、艺术作品等)涉及版权归属问题。这引发了关于AI是否可以被视为作品的作者,以及AI使用人类创作的材料生成新作品是否侵犯了原始作品的版权的讨论。

2. 责任与问责:当AI应用在关键决策过程中(如医疗、金融等)时,若出现错误或损害,应由谁负责(AI开发者、用户、还是AI本身)是个复杂问题。

3. 隐私与数据保护:AI系统,尤其是像ChatGPT这样的基于大量数据训练的模型,涉及到大量个人和敏感数据的处理。这引发了关于数据隐私、安全性以及合规性的问题。

4. 伦理和偏见:AI系统可能在其回答和决策中体现出开发过程中的偏见,这可能引起关于算法公正性和非歧视的法律挑战。

应对这些挑战的方法包括:制定明确的法律和政策框架、增强AI系统的透明度和可解释性、确保数据处理的合规性、以及在AI系统的设计和应用中考虑伦理和公平性。这些都是目前AI领域研究和讨论的热点话题。随着技术的不断进步和应用的扩展,相关的法律和伦理框架也将继续发展和完善。

澎湃科技:在保障用户的数据安全方面,ChatGPT有什么改善计划?

ChatGPT:您的总结非常到位。确实,随着AI技术如ChatGPT的广泛应用,这些挑战和问题已成为法律、伦理和社会学领域的重要议题。特别值得一提的是,这些挑战并非静态的,而是随着技术的进步和社会认知的变化而不断发展。

例如,在版权和知识产权方面,现行的法律体系可能需要适应新的技术现实,考虑到AI如何创作和使用内容。在责任与问责问题上,可能需要新的法律框架来确定在AI辅助或自动化决策过程中的责任分配。

隐私和数据保护方面的挑战尤其突出,因为AI系统通常需要处理大量的个人数据,这涉及到数据保护法规的遵守和用户隐私的保护。

伦理和偏见的问题则需要我们深入研究AI算法的设计和训练过程,确保其不会放大现有的社会偏见或造成新的不公平现象。

总之,AI技术的发展和应用给现有的法律和伦理框架带来了挑战,同时也提供了更新和改进这些框架的机会。这需要法律专家、技术开发者、政策制定者和社会各界的共同努力。随着对这些问题的深入研究和讨论,我们可以期待更加全面和成熟的解决方案。

澎湃科技:你希望ChatGPT接下来的发展目标和路径是什么样的?

ChatGPT:作为一个AI模型,我没有个人的希望或期望。然而,可以展望ChatGPT未来可能的发展方向,这些方向反映了目前在人工智能领域的趋势和需求:

1. 更高的准确性和可靠性:不断提升模型的精确度,确保信息的准确性和时效性,减少误解和错误。

2. 增强的理解和生成能力:通过更先进的算法和更大的数据集训练,提高模型的语言理解和回答生成能力,使其能够处理更复杂和多样的查询。

3. 更强的个性化和适应性:发展AI的能力,以更好地理解和适应不同用户的需求和偏好,提供更个性化的交互体验。

4. 伦理和公平性的加强:加大对模型偏见和伦理问题的关注,确保AI的使用更加公正和无歧视。

5. 隐私和安全性的提升:强化数据处理的安全性和隐私保护,以增强用户对使用AI技术的信任。

6. 多模态能力的发展:除了文本,还可以整合图像、声音等多种数据类型的处理能力,实现更全面的AI应用。

7. 跨领域应用的扩展:将ChatGPT的应用扩展到更多领域,如教育、医疗、法律等,提供更专业和定制化的服务。

8. 可解释性和透明度的增强:提高AI决策过程的可解释性,使用户能更好地理解AI的工作原理和决策依据。

这些目标和路径旨在使ChatGPT成为一个更有效、更安全、更负责任的AI工具,同时为用户提供更丰富、更个性化的体验。随着技术的不断进步,ChatGPT和类似的AI系统将继续在这些方向上发展和完善。

澎湃科技:大语言模型下一步的进化方向是什么,有什么挑战?

ChatGPT:大型语言模型(如GPT系列)的下一步进化方向可能包括以下几个关键领域,同时也面临着相应的挑战:

进化方向:

1. 更高级的理解能力:进一步提升模型对复杂语言结构和隐含意义的理解能力。

2. 多模态集成:整合文本、图像、声音等多种数据类型,使模型能够处理和理解跨媒体的信息。

3. 更强的推理和创造能力:提升模型在复杂问题解决和创造性任务(如编程、艺术创作等)中的表现。

4. 个性化和适应性:使模型更好地适应个别用户的特定需求和偏好。

5. 可解释性和透明度:增强模型的决策过程的可视化和解释能力,提高用户的信任和理解。

面临的挑战:

1. 数据和隐私问题:如何在不侵犯用户隐私的情况下收集和处理大量数据。

2. 偏见和公平性:避免训练数据中的偏见在模型输出中得到放大。

3. 复杂性管理:随着模型规模的增大,如何有效管理和运行越来越复杂的系统。

4. 安全性和滥用风险:防止模型被用于生成误导性或有害内容,确保安全和负责任的使用。

5. 技术和算法的创新:持续的研究和开发以解决现有模型的局限性,如长期记忆、因果推理等。

总体而言,大型语言模型的未来发展将是在提升技术能力的同时,不断解决伴随其成长的伦理、法律和社会挑战。这需要来自技术、法律、伦理和社会各领域的专家共同参与和努力。随着技术的发展,我们可以预期更加先进、智能且负责任的大型语言模型。

澎湃科技:大模型的训练数据快要耗尽了吗?怎么解决这个问题?

ChatGPT:关于大模型的训练数据快要耗尽的问题,实际情况比较复杂。虽然目前的大型语言模型(如GPT系列)已经使用了海量的数据,但理论上,随着互联网和数字内容的不断增长,数据源是持续更新和扩充的。

以下是这个问题的一些关键考虑因素以及可能的解决方案:

数据源的丰富性:

1. 持续更新的内容:互联网上的内容是持续更新的,包括新闻、论坛帖子、社交媒体更新等,提供了不断更新的数据源。

2. 多样化的数据类型:除了文本数据,还可以探索图像、视频、音频等其他类型的数据。

数据耗尽的问题:

1. 质量而非数量:重点可能逐渐从“更多数据”转向“更高质量或更相关数据”的获取。未标记数据的挑战:大量的数据未经标记或分类,这需要更高效的数据处理和学习算法。

解决方案:

1. 更有效的学习算法:发展新的学习算法,让模型能够从更少的数据中学习更多的信息。

2. 强化学习和迁移学习:利用已有模型作为基础,适应新的任务或数据集。

3. 数据增强和合成:通过数据增强技术创造新的训练数据。

4. 更多的用户生成数据:利用用户与AI互动中产生的数据进行训练。

5. 众包和社区参与:鼓励社区和用户提供或标注数据。

6. 跨领域数据集合并:整合不同领域和类型的数据集。

总体来说,虽然数据的质量和相关性是挑战,但随着技术的进步和创新方法的应用,可以有效地利用现有和新产生的数据资源,继续推动大型语言模型的发展。

澎湃科技:除了生成式AI,AGI是否会存在其他形式?AGI的下一阶段会是什么?

ChatGPT:当谈到AGI(人工通用智能)时,人们通常指的是具有类似人类一般智能水平的系统,具备多个领域的学习和适应能力。除了生成式AI,AGI的发展可能探索其他形式,例如:

集成式AI系统: 将不同领域的专业化AI系统整合,以实现更全面的智能。这可能涉及语言处理、视觉感知、决策制定等方面的协同工作。

融合多模态信息: 整合文本、图像、语音等多模态信息,使系统更全面地感知和理解世界。

迁移学习和元学习: 使AI系统能够更有效地从一个领域迁移到另一个领域,实现更灵活的学习和适应性。

关于AGI的下一阶段,这是一个难以准确预测的问题。一些研究者可能专注于提高系统的认知能力,使其能够更好地模拟人类的智能行为。同时,也可能出现更注重伦理、安全性和社会适应性的研究方向,以确保AGI的广泛应用是安全和有益的。AGI的发展方向将在未来的研究和技术创新中逐步揭晓。

澎湃科技:听说过百模之战吗?如何看待中国的大语言模型发展?

ChatGPT:“百模之战”是指中国在大型语言模型(LLM)领域的一系列活跃发展。中国的技术公司和研究机构在这一领域投入了大量资源,致力于开发与国际先进水平相媲美的语言模型。以下是对中国大语言模型发展的一些观点:

1. 技术创新:中国在人工智能领域有着强大的研发能力和技术创新潜力,特别是在自然语言处理(NLP)和机器学习领域。

2. 数据优势:中国拥有庞大的网民基数和丰富的语言数据资源,这为训练大型语言模型提供了有利条件。

3. 政策支持:中国政府对AI技术的发展给予了高度重视和支持,这有助于推动相关研究和应用的快速发展。

4. 应用场景丰富:中国市场的多样性为语言模型的实际应用提供了广泛的场景,从而促进了技术的快速迭代和优化。

5. 国际合作与竞争:中国的大语言模型发展不仅是国内竞争的结果,也受到国际技术发展的影响和激励。

6. 挑战与机遇:与全球其他地区一样,中国在发展大型语言模型时也面临着技术、伦理、法律等方面的挑战,但同时也拥有巨大的市场潜力和应用前景。

综上所述,中国在大型语言模型的发展上展现了强劲的动力和潜力。随着技术的进一步成熟和市场的深入开发,中国有可能在这一领域实现重要的突破和贡献。

 

ChatGPT一周年|大模型新进化:智能体?超级生态?工具智能?

【编者按】2022年11月30日,可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出聊天机器人ChatGPT。它不仅催生了人工智能界的又一轮高光期,还并不常见地被誉为“蒸汽机时刻”、“iPhone时刻”甚至“钻木取火时刻”。

这一年来,被称为“生成式人工智能”的革命性技术激发了全球科技界“把所有软件和硬件重做一遍”的冲动,让具有先发优势的AI基础设施提供商价值暴涨,使得从医疗到航天的科学探索获得被加倍赋能的前景,传说中“奇点”的到来从未变得如此具有可能性。

正如历史上任何一次技术变革,ChatGPT也给我们带来了深深的焦虑。既有对AI威胁人类生存的科幻式恐惧,也有对砸掉我们饭碗、骗取我们钱财、操纵我们心灵的现实担忧。连OpenAI自身,也刚刚经历了一场危机,差点没躲过一夜坍塌的命运。

这一年让我们产生了更多疑问:大语言模型下一步的进化方向是什么?AI芯片短缺何时解决?训练数据快要耗尽了吗?中国的百模之战会如何演化?AI技术发展应加速还是减速?AGI(通用人工智能)是否会存在其他形式?等等。为此,我们邀请了2023年在AI赛道奔跑的业内人士回答这些问题,并提出他们自己的问题。如果你也有自己的答案或提问,欢迎告诉澎湃科技(www.thepaper.cn)。

掀起生成式人工智能浪潮的美国机构OpenAI,在ChatGPT发布前并不为大众所熟知。但在这短短的一年里,它已经成为全球最知名的科技公司之一,旗下产品令谷歌、Meta、亚马逊等几大巨头倍感竞争压力。所有关心AI的人都在好奇:GPT-5到底什么时候发布?谁能够成为OpenAI的真正挑战者?

“用‘挑战者’这个词,就把OpenAI的地位抬得太高了。OpenAI确实在领先,但也不是可以完全忽视其他竞争者。”北京智谱华章科技有限公司(智谱AI)CEO张鹏对澎湃科技表示,“从技术上真正能和OpenAI一较高下的,可能还得是本身有底蕴、有技术积累、认知足够高的企业。”但上海市数据科学重点实验室主任、复旦大学教授肖仰华指出,一旦某个模型初步具备了AGI的形态之后,它的升级和迭代以及演进速度将会十分惊人,所以其先发优势很明显,实际上要担心的是差距是否会被拉大。

经过早期爆炸式的增长后,OpenAI的用户增长放缓已是事实,尽管“这是非常正常的”。蚂蚁集团副总裁、金融大模型负责人王晓航告诉澎湃科技,从模型能力来讲,其演进是靠数据驱动的,“今天比较大的问题是互联网上公开可得的图文数据基本上已经开始枯竭了”,解决路径有两条。但最主要的问题是,AGI作为中心化的产品,现在还没法成为大众的高频刚需。他进而提出:大模型不应只是一个简单的中心化的超级AI,而应该是一个超级生态,这也是行业趋势。现在还没有特别成功的产业案例,但可能会在未来一两年发生。

对于大语言模型下一步的进化,在接受澎湃科技采访时,科大讯飞董事长刘庆峰提出了3个方向:更大的模型参数;打造AI人设;在各行业场景内做更纵深的定制和服务。百度集团副总裁、移动生态商业体系负责人王凤阳则着重提到了智能体(agent):“我们认为其已经是从商业生态上讲最有价值和最希望能够取得突破的方向。”北京衔远科技有限公司创始人周伯文认为,下一步在于有没有可能让AI跟人一样能够使用好工具,“这是目前我们在大模型领域再往下推进的更重要的一个方向,我把它叫做工具智能。”北京开放传神科技有限公司(OpenCSG)创始人、CEO陈冉指出,要解决数据缺乏的问题,必须做好数字化转型。亚马逊云科技全球渠道副总裁Ruba Borno则认为,真正的困难在于优先事项的排序,在于决定哪些用例对用户来说是最重要的,而不是跟随一切可能有趣的方向。

ChatGPT诞生以后,中国科技企业展开了一场被戏称为“百模大战”的白热化竞争,参与者包括老牌“大厂”和飞速融资的初创企业,其激烈程度和演进速度在中国企业界多年未见。但到了明年,“市场会更冷静客观。第一,未来大模型可能会更侧重应用落地。第二,基础模型肯定会收敛,市面上不会有80多个基础模型版本。”信也科技副总裁、大数据及AI负责人陈磊对澎湃科技表示。

随着OpenAI逐渐不open(开放),对其模型参数和训练细节讳莫如深,而以Meta为首的公司高举开源路线的旗帜,一个被广泛提起的问题是:“开源大模型有机会赶超闭源大模型吗?”云知声智能科技股份有限公司董事长兼CTO梁家恩估计:“在应用数量上开源大模型的影响会更大,但在做到最高水平上,闭源大模型会更好一些。”

以下为采访实录,因篇幅原因有删减:

澎湃科技:GPT-5会发布吗?

陈冉【北京开放传神科技有限公司(OpenCSG)创始人、CEO】:GPT-5、GPT-6、GPT-7肯定会继续发布。数据量爆发式增长,大模型参数不断增长,交互性也会越来越强,只不过大模型的预训练过程已经不需要了,更多的是怎么让它通过好的数据集形成质的飞跃。

梁家恩(云知声智能科技股份有限公司董事长兼CTO):GPT-5只是一个代号,往后走还有很多问题要解决,AGI的能力要继续延伸,OpenAI是一个值得尊重的AGI的引领者。

陈磊(信也科技副总裁、大数据及AI负责人):发布应该是必然,只是时间上难以判断,这取决于市场和监管。推测会更审慎看待GPT-5的推出时间,因为GPT-4现在在市场上还很有竞争力。

肖仰华(上海市数据科学重点实验室主任、复旦大学教授):发布是一个时间早晚的问题,但是它所发布的GPT-5和现在训练出的GPT-5未必是同一个版本。为什么?因为一般研制出来后需要进行一些安全性评估评测。安全性不单单是指在问答交互过程中产生有用的、无害的答案,还包括其能力对整个社会带来的冲击和影响。

事实上OpenAI在GPT-4发布没多久,在今年3月就曾经发布过一些报告,分析了人类的哪些工作岗位容易被GPT系列的大模型所替代,所以这本身也应该被纳入其发布前的安全性评估范围里。也是基于此,很多时候我们认为GPT-5经过适当评估,被认为是安全之后,或许也要做一定能力的剪裁,最终会发布一个相对安全、人类能够接受的大模型版本。

澎湃科技:谁能够成为OpenAI的真正挑战者?

张鹏(北京智谱华章科技有限公司CEO):OpenAI的挑战者可以分成两类,一类是科技巨头,像微软、谷歌、Meta、亚马逊,甚至包括英伟达,但他们的切入点不太一样,挑战的是OpenAI的市场、技术积累、资源。另一类是创业型企业,包括Anthropic、Cohere、Inflection AI等,对OpenAI会有一定冲击。

用“挑战者”这个词,就把OpenAI的地位抬得太高了。OpenAI确实在领先,但也不是可以完全忽视其他竞争者。从技术上真正能和OpenAI一较高下的,可能还得是本身有底蕴、有技术积累、认知足够高的企业。比如谷歌正在整合自己的所有资源,明显看到它在加速,对OpenAI的威胁明显提升了。Anthropic是公认除OpenAI之外强有力的一个竞争者,Inflection AI坚持自己的特色,这些企业也会构成挑战。

本质上,谷歌、Anthropic,包括我们自己,目标都是一致的,就是AGI。其他企业略微会有不同的发展方向或对自己的定义。

(澎湃科技:能成为竞争者是因为什么?)最重要的就是目标和认知要足够有竞争力。OpenAI从2015年瞄准的目标就是AGI,不管是投靠微软还是独立发展,都没有改变初心。第二是资源,微软可以说是不计代价支持OpenAI,能跟这些巨头的资源投入相媲美的,可能就是巨头或者是有巨头站在身后的企业。第三是团队积累、核心技术掌握的程度。

肖仰华:在ChatGPT刚发布的时候,我曾经就有一个观点:在通用人工智能赛道,有可能是只有第一,没有第二。这当然是在不考虑其他因素的前提下,如果是一个充分自由竞争的环境,那么可能是这样的结果。为什么?在不考虑其他人为因素、政治因素等,单纯就技术本身的发展和演进趋势来看,一旦某个模型初步具备了AGI的形态之后,它的升级和迭代以及演进速度将会十分惊人,所以其先发优势十分明显,实际上我们要担心的是差距是否会被拉大。

那么OpenAI会存在挑战者吗?我认为有可能会,但挑战者可能并不是来自于Open AI所开辟的通用大语言模型赛道,有可能来自于一些新的赛道,如具身大模型,当大模型和机器身体结合之后,它对智能本身的促进作用可能远超一个没有身体的纯语言式的大模型,还有包括多模态大模型、基于群体智能的大模型、专业大模型等。也就是说在一些新兴大模型赛道,因为其借助了新的发展智能的“涌现”机制,就有可能超出以语言为核心机制的GPT系列大模型。我一直认为智能的实现路径是多样的,或者说通用人工智能的实现路径是多样的,以ChatGPT为代表的以语言为核心的大语言模型,未必就是最佳捷径,有可能存在更快速的迭代。

我相信OpenAI也有可能意识到这些可能挑战者的存在,但同时在这么多赛道布局,这对任何一个参与者来讲都是非常困难的,所以挑战者理论上存在的,但一定不是在OpenAI自己所开辟的这条赛道上,一定是在其他可能实现通用人工智能的新赛道上。

王晓航(蚂蚁集团副总裁、金融大模型负责人):五年前,很少有人预料到OpenAI会成为AI领跑者。所以挑战者有可能是像Meta这样背靠开源生态的开源大项目,像谷歌这样有数据飞轮、有资源的企业,也有可能是另一个“OpenAI”,也就是专注在算法架构和深度领域潜心钻研的创业公司。

陈磊:短期很难(挑战OpenAI),测评结果上都没有达到GPT-4的能力。从多模态角度看,短期也没有看到特别强劲的挑战者。但这需要动态来看,因为模型在不断迭代,不同模型对不同场景的表现也不一样,很难讲一个模型通吃。但GPT-4可能是个例外,它真的比较全面。

陈冉:国内不可能有挑战者。国外像谷歌、Meta都没有放弃,另外一个阵列像Cohere、Anthropic、X会不断挑战。这个技术不会被垄断,大咖们都想获得挑战资格,所以竞争会越来越激烈。

梁家恩:DeepMind也是很是实力的AGI的推动者之一,但更关注行业问题,他们开发的AlphaFold非常厉害。其实大家都在寻找一个好的通用智能基础,然后用这个技术能力去解决一个问题,就像DeepMind的理念是先解决智能问题,然后再解决各种行业的难题,因为那些难题可能已经超出人类目前的能力范围了。

澎湃科技:如何看待OpenAI增长放缓?

王晓航:从模型能力来讲,共识是模型架构是趋于统一的,所以模型能力的演进是靠数据驱动的。今天比较大的问题是互联网上公开可得的图文数据基本上已经开始枯竭了。解决路径有两条:一是模型架构如何优化来“对齐”多模态数据,包括图文、视频、IoT等一系列多模态数据,打破数据规模、数据质量瓶颈,这是各大AI大模型厂商现在最主要的方向之一。二是落地,OpenAI正在寻找产业数据合作伙伴,这意味着公开可得的数据、高质量的数据耗尽之后,千行百业专业领域里的高质量私域数据规模可能和共享数据不相上下,这部分产业数据怎么像自来水管一样接入到大模型也很关键,这不存在捷径,要跟同行一起管理。

从用户来讲,用户增长放缓是事实,早期爆炸式增长不是可持续的。

最主要的问题是,AGI作为中心化的产品,现在还没法成为大众的高频刚需。大模型要真正融入千行百业,让产业全面AI化,才能成为广泛的刚需,这是下一步的增长空间,会有更大的增长。大模型不应只是一个简单的中心化的超级AI,而应该是一个超级生态,这也是行业趋势。所谓超级生态,就是更通用强大的模型、更高效的开发、开发之后集成到各产业中。现在还没有特别成功的产业案例,但可能会在未来一两年发生。

肖仰华:首先,OpenAI的增长缓慢只是指ChatGPT的用户数增长放缓了,这是非常正常的。任何一款新产品经过早期发展之后,随着用户对其新鲜感的消失,自然会存在一些用户流失。这也说明大模型的能力不能停留在只是聊天,应该要尽快向行业深度的痛点需求渗透,真正意义上解决千行百业里严肃的决策问题,才有可能释放价值。

我经常把OpenAI的GPT系列大模型比作电能,它提供的是一种智能。人类历史上从电能的诞生到大规模应用,经历了上百年的时间,为何如此?主要因为在于电能要想赋能应用,还需要很多电器,必须有大量电气设备的研发制造,才有可能真正解决问题。OpenAI进一步的增长动能恰恰也在于此,必须要有利用GPT这种智能的能力,形成各种各样的应用程序,就是所谓的GPTs,才有可能真正解决行业问题,创造价值,推动OpenAI进一步的可持续发展。

张鹏:从现象看本质,并不一定是放缓。盛传的ChatGPT用户增速放缓甚至是下降,其实有很多背后的原因,比如它的API(应用程序编程接口)收入增长很快,也就是说很多用户从初期试一试玩一玩ChatGPT,转向了真正拿GPT的API去开发应用,做商业转化,大家的心态从看热闹转换为脚踏实地做事情了。当然,像C端用户的增长也不是没有天花板的,因为全球网民也就那么多。

陈冉:它没有真的放缓,它的增长趋势超越了TikTok。只能说它到达了瓶颈,瓶颈受基数的限制。

陈磊:这只能反映OpenAI的To C基本面,To C放缓是必然的也是正常的,ChatGPT出来的时候是现象级应用,大家都会去尝试,基数很大,但群体也会逆向选择。另一方面,不能只看To C,集成在微软的Copilot、Office里的使用基数应该是非常大的。还要看到OpenAI投资了一些下游AI应用企业。OpenAI的技术在这些场景的应用到底是什么状态,还需要更加全面来看。

澎湃科技:OpenAI召开首届AI开发者大会后,AI领域的小公司还有没有机会?

陈冉:有,也没有,如果没有独特的方式就很难。互联网时代有阿里、腾讯、百度,后面也有拼多多的冲击。小公司有没有机会,就看小公司做的事有没有创新性或业务的革命性,如果没有这些,小公司没有机会。机会一定是留给那些有想法的初创公司的。

梁家恩:现在的突破更多还是技术底层上的突破,在产业里,应用层的商业价值空间要远远大于技术层。小公司如果只是做一些简单的调优,来形成好的商业模式,这个空间可能会变小。它必须要深入到一个行业里解决更深层的问题,才有机会。

澎湃科技:未来一年,大模型的多模态化预计会演化到什么程度?

王晓航:现在行业重点是多模态,大模型海量多模态数据之间的理解和“对齐”技术还会快速进步。我们讲的是高维度数据,不只是图文、视频,还有IoT和物理世界连接的研究也会慢慢浮出水面,也就是传感、控制这些模态的数据也会跟自然语言“对齐”,在AI领域这个技术叫grounding(落地),怎么把语言和现实世界中的感知、行动堆砌和连接在一起,后来产生更多新能力,比如自动驾驶能力、机器人能力,真正解决端到端的问题,我觉得未来一两年会有大突破。

比如自动驾驶,以往是多个模块进行拼接来训练,但现在像特斯拉的自动驾驶主要在研究端到端的训练,把雷达、视频、驾驶数据和传感器的大量车速、刹车控制数据当作序列数据,来学习它们之间的对应和关联,在海量数据中相互映射后更好理解和预测。这种多模态数据之间的对齐已经超过了自然语言能够描述的知识。所以多模态数据不只是文生图转换,更重要的是如何跟现实社会连接,这在未来会打开另一个新的空间。

肖仰华:我想在未来,但凡有数据支撑的多模态任务,大模型基本上能够胜任。比如大家看到社交媒体上有大量的风景照、自拍照,像这类图像、视频、语音相应的多模态理解能力,是多模态大模型会具备的。基于这些数据,大模态可能还会组合创新出一些能力,比如我们经常看到的一张图“骑着马的宇航员”,大模型一定程度上可以想象这样一种组合是什么样的意境,并且做出准确绘图。

同时也要注意到,还有大量多模态数据在开放平台上很少出现,比如专业的图表,医学里的专业数据,大量的设计图纸或专业图片在互联网上并不存在。那么由于大模型缺乏相应的数据基础,理解对其而言仍然十分困难。这个困难的另外一层原因在于,这些专业多模态数据背后都有相应原理的支撑,比如说电路图结构之所以如此,背后实际上有电路的原理,所以对这种图片的理解或对这种多模态数据的理解,不单单关乎图片本身,还关乎图像背后所遵循的相关科学原理,需要大量背景知识才有可能理解。所以在这一类场景,大模型很难单纯从图片学到多模态数据的认知和理解能力。当然正因为很困难,这也就为我们开辟一些新赛道,或者说为形成差异性竞争优势提供了新的机会。

张鹏:多模态已经在语音、视觉、自然语言的交互感知方面有很多具体进展了。我觉得多模态模型会走向更重要的舞台,可能会融合更多模态的数据,将来可能会有两种以上模态统一到一个模型里,多模态预训练也会导致大模型智能能力或者认知能力进一步提升。

梁家恩:对于大模型来说,即便是多模态,它的核心还是大语言模型部分,因为这部分把语言语义做了核心抽象。例如一个纯文本模型把全球的书全读完了,头脑中已经有一个它所理解的世界了,但不知道树长什么样,鸟叫声是什么样。现在以文本为核心,把各种各样的模态的数据尽可能整合“对齐”起来,它会达到多模态与语义“对齐”的状态。

澎湃科技:大语言模型下一步的进化方向是什么,有什么挑战?

刘庆峰(科大讯飞董事长):接下来大模型的进化方向有3个,首先还是需要更大的模型参数,有算力可支持上万亿浮点参数(GPT-4的模型参数在1.8万亿左右)的训练,这对大模型来说是基本盘。其次,要打造AI人设,让AI可以主动问答,特别是能进行启发性、引导性的提问。最后,大模型要在各个行业场景内做更纵深的定制和服务,把大模型的多模态能力、后台的知识学习表达能力跟各个场景深度融合。

王凤阳(百度集团副总裁、移动生态商业体系负责人):我想把这个问题具体收缩到一个应用场景——营销领域。百度营销之所以打造智能体(agent)商业,是因为我们认为其已经是从商业生态上讲非常有价值和和有希望能够取得突破的方向,文心大模型4.0在理解、生成、逻辑、记忆能力上都有较大提升,如何让大模型底座让智能体的表现更好,应该是下一步的方向。

目前市面上的应用,在智能体方面可能做的相对前沿一些的是情感陪伴类,或者娱乐类。国内外的创业公司往往都更少做要完成复杂商业任务的智能体,而心理类、教育类比较多。不过我们也很欣喜地看到,无论海内外,下半年往复杂商业做的创业公司也多起来了,这毕竟是一个更大的空间。

周伯文(北京衔远科技有限公司创始人,清华大学惠妍讲席教授、电子工程系长聘教授):人作为一种特殊的物种,具有两个特别独特的能力,一个是地球上独一无二的语言能力,第二个就是创造和使用工具的能力。如果先让AI无限地逼近人的智能,下面一个问题在于有没有可能让AI跟人一样能够使用好工具,这是目前我们在大模型领域再往下推进的更重要的一个方向,我把它叫做工具智能。

如果让AI去学会和理解智能,简单讲有一句话可以找到这个方案,叫做tokenized everying(标记一切)。大语言模型看起来所有的一切都是token(注:在AI领域token通常指文本处理过程中的最小单位),在标记完成以后,我们可以像一个字一个token地输出语言一样,换成一个token一个token地去调用和使用工具,通过对工具使用的组合和工具使用结构的分析,能够完成非常多的复杂任务的交互。

我们可以把所有使用的工具分解成三类,一类是基于物理交互的工具,比如说机械人、机械臂甚至无人驾驶汽车。第二类就是我们把整个事件抽象成一系列的图形界面,叫GUI,比如大家习惯的手机,所有的任务都在GUI上完成。第三类就是所有的事件都被抽象成API,这是硅谷的名言“软件正在吞噬世界”的背后原因,所有的接口都在成为API接口。在这三个假设下面我们可以发现所有这些工具都可以通过处理去做tokenized,经过tokenized的训练,可以让一个具备知识、压缩世界知识的语言模型、基础模型去理解和使用这些工具。

因此,下一代的人工智能同时会兼具语言智能和工具智能。它能够跟人交互,理解人的意图,同时它能够理解这个世界和所需要的工具,在完成人类指令的目标驱动下,会合适地去调用相应的工具完成任务。

张鹏:多模态肯定是一个很重要的事情。多模态最本质的是要提升模型本身的认知能力,这里面包含了理解、推理、自规划等,拆解开来看涉及到跨模态的学习能力和应用能力、融合知识和常识的推理能力。还有最近很火的agent(智能体),它的本质还是推理和自我规划能力,最后公平性、安全隐私还有很重要的工作要做,要有很大投入,确保一个非常智能、像人一样但会犯一些小错误的技术投入到实际应用中时,不至于造成特别大的危害。

这些也都是挑战,比如拆解多模态的挑战就会有资源、数据、算力挑战。视觉和语言跨模态需要图像和文本成对的数据,成对的数据比单纯给语言大模型做预训练所需要的数据准备起来会更难,对质量的要求会更高。有人说过,高质量的语料已经全用完了,新的数据从哪来?高质量数据从哪来?图像跨模态更是如此,早期准备几百万的图像和文本就已经很困难了,现在模型越来越大,需要的数据量越来越多,这些数据从哪来?怎么准备?

公平性、安全隐私方面,前不久一个团队用模型预测社交平台上的用户画像,通过用户发表在社交平台上的内容预测用户的性别、位置、年龄、职业等,准确率非常高。像这种研究如果用在不正当的途径上,就会有安全性的威胁。

陈冉:大模型的发展是跳跃式、指数性的,大模型用一年时间走过了几十年的发展。但国内基座不稳,包括算力、算法人才、数据缺乏。

在大模型产生之前,有个必要环节叫数字化转型,要把各行各业、各种各样的信息变成数据。但国内没有完全走通数字化转型,导致很多公司即使有大模型需求,但没有数据,怎么训练?数字化转型没有做好,那么多模态也会相应地出现差异性,会滞后。所以国外已经全面适配了,国内需要更长时间。

但应用会在中国生根发芽。应用需要平台和生态开源,所以先有平台性、生态性、开源性的公司把商业跑通,才能看到应用性的公司,因为这些公司不需要关心基础设施,这样应用有可能形成跳跃式发展,实现弯道超车,但没那么快,估计需要2-3年。明年会涌现很多应用公司,但不会变成巨头,因为很难。相当于我开电车,还不知道充电桩在哪,怎么跑?

肖仰华:大语言模型的下一步发展方向可以说非常多元化,有很多非常有前景的潜在发展方向,比如多模态、具身大模型。

单纯就语言模型自身而言,仍然有很多幻觉问题,逻辑推理能力、专业思维能力有待提升,特别是在数学物理化学这些专业能力方面。最近有很多基于合成数据的训练,一定程度上就是在科学原理指引下生成数据。利用合成数据训练大模型一定程度上可以提升或缓解其逻辑缺陷,或者解决专业认知能力不足这些瓶颈问题。

一个很重要的方向是让大模型更安全、更可控、可理解、可解释。另外,大模型的实时性仍然有待提升,虽然现在已经有基于搜索增强的解决方案,但能否从其自身训练机制等角度解决实时性不足的问题,仍然值得关注。还有大模型低成本的训练和应用技术,实际上大模型的成本仍然十分高昂,大规模应用成本往往难以接受,如何进一步降低大模型的成本,也是未来非常值得关注的。

陈磊:还是要解决大模型实际应用中的困难。第一是效率,怎样让大语言模型能够在线上实时给出结果,现在有的在做模型推理的加速、模型的裁剪。第二,怎么保证大模型To C时安全可控,不能有伦理道德的问题,答案要严谨准确科学。第三,怎么用更多高质量数据让大语言模型持续迭代。总的来看,它的进化方向肯定是奔着应用和落地去的,肯定不是完全停留在理论阶段。

Ruba Borno(亚马逊云科技全球渠道副总裁):实际上,现在只是最开始,可能有很多不同的方向。这是一项真正的变革性技术,我们甚至不知道一年后它会是什么样子。所以我认为真正的困难在于优先事项的排序,在于决定哪些用例对用户来说是最重要的,而不是跟随一切可能有趣的方向,因为生成式人工智能可以应用到如此多不同的用例中。接下来我们的任务就是选择专门的领域,无论是特定行业还是特定的用例,继续在这些不同领域获得深入的知识,这将是关键。

澎湃科技:未来一年,中国的百模大战会如何演化?

张鹏:中国的情况有特殊性,不能直接对标国外。大趋势是认可大语言模型的能力,会重塑千行百业的业态,需要在具体的行业落地方面投入更多资源。任何一项技术发展到一定程度之后必然要产生更多实际价值。

大方向没错,但具体怎么做其实有很多很tricky(棘手)的地方。最常见的说法是并不需要通用的基座大模型,只需要小的、中量级的、合适的行业模型。大语言模型能力突破的根本原因在于,它对世界知识的学习和建模,才使得它具备了接近人的理解推理和更进阶的认知能力。对于行业来讲,行业模型需不需要基座模型提供的常识能力,而不仅仅是用行业里的数据训练,这个关系有些微妙。我的见解是,最理想的状态是,行业模型并不是完全独立于基座模型和通用模型,而是生长在基座模型之上,基于基座模型进一步训练和微调。

陈磊:市场会更冷静客观。第一,未来大模型可能会更侧重应用落地。第二,基础模型肯定会收敛,市面上不会有80多个基础模型版本,一些创业公司之间的合并兼并已经在实际发生了,因为这个事儿本身是很重资源的。第三,因为基础模型会收敛,可能会有更多企业关注怎样做垂类模型。第四,带来的结果肯定是生态更加丰富,整个行业除了做模型的,也会看到硬件厂商、基于大模型的应用。怎样把大模型落地的通路连起来,未来一年我们能看到很多进步和产出。

周伯文:如果让我预测的话,通用基础大模型的数量会收敛,人工智能大模型必须要进入到行业。人工智能这一次的进步和行业的爆发,也离不开行业大模型进入百业千模这个阶段,同时更重要的是,行业大模型的应用应该会层出不穷。

梁家恩:我估计未来通用大模型一个手能数得过来。从垂直应用来说,大模型数量会比大家想象的多,可能会有几十个,但取决于这些行业模型到底能否真正解决行业问题,要是无法解决,就只是玩具。

陈冉:曾经有个投资人问我,中国会出现几个大模型,还是百个大模型,还是万个大模型。我觉得中国不是百模大战,中国也会像美国一样出现千模大战、万模大战。因为模型是开源的,算法是一致的,但数据是独特的,一旦有了数据,大模型就变成了独立的个体。各行各业都需要把数据灌到大模型形成生产力,所以国内竞争会越来越激烈,基础大模型会有几十个,垂类模型会越来越多,未来垂类模型只要几亿、几十亿参数就能满足需求。

大模型可以刷榜,但没有意义,大家会越来越明白到底谁的大模型是真的有用。但能否出现一个特别牛的开源大模型,我觉得肯定会有。

澎湃科技:开源大模型有机会赶超闭源大模型吗?

张鹏:目前的情况看,开源模型的平均性能与最好的闭源模型的差距还是比较明显的,想要赶上来可能还得花一段时间。

梁家恩:从技术角度来说,没什么本质区别,技术圈里没有太大的秘密,全球大语言模型的范式相对统一。

在闭源方面,我相信OpenAI除了算法框架之外,在数据上的工作做得非常细致扎实。从应用角度来说,大模型最终还是要走到应用里去。OpenAI的应用走在前沿,它们已经滚动了一年。我估计,在应用数量上开源大模型的影响会更大,但在做到最高水平上,闭源大模型会更好一些。

陈磊:开源和闭源各有优劣。开源的生态比闭源好,会带来更多开发者帮助开源社区进步,进一步帮助开源大模型进步。

但大模型的开源和其他技术的开源最大的不同是,大模型的开源对资源要求高。开源的应用势必要求有一个团队能够把开源模型用在程序里,还要做大量结合场景的改造,很多公司不具备这个能力。

从大模型训练的角度来讲,它的开源适用于有限范围内。闭源大模型更强调商业化和定制化能力。所以不同公司在不同阶段对开源和闭源的选择不一样。当然从商业策略来讲,一些大模型创业公司两条腿走路,更多时候可能会把开源版本先推出来,再提供商业化版本。

澎湃科技:对于大模型的发展趋势,你最想知道答案的一个问题是什么?

陈冉:大模型算子(注:深度学习算法由一个个计算单元组成,这些计算单元被称为算子。)到现在为止还没有质的变化,下一代大模型的算子革新方向是什么?

梁家恩:从技术角度来说,大模型的可靠性和可控性可以用什么方法来做?目前它本质上还是以统计为导向。纯靠统计还不够,在语义抽象的基础之上,还需要有效结合事实,符合人类的逻辑规范,“对齐”人类的价值选择。我们对弱人工智能的所有行为都能预判,只是不知道它能做得多好。但AGI会产生什么结果,我们不可预期,我们如何让它生成的结果和人类的期望方向保持一致,这是一个挺有挑战的问题。

张鹏:什么时候能够非常明确地评测出大模型的智能水平超越人类的平均水平线?GPT-4发布时,报告里提到了这么一个结论,当然大家并不一定完全接受或重视这件事。大模型平均能力超过人类平均水平,它的标志性意义是大模型确实可以真正投入使用,并在很多场景中解决具体场景问题。

陈磊:大模型到底是不是通用人工智能的一条可行路径?之前大家说通用人工智能真正到来的那天可能是2035年,现在来看明确讲能通往通用人工智能的可能也就是大模型了。但它是不是真的能通往通用人工智能、是不是唯一的路径,大家都比较好奇。

ChatGPT一周年|炼制大模型芯片短缺数据有限,何以解忧?

【编者按】2022年11月30日,可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出聊天机器人ChatGPT。它不仅催生了人工智能界的又一轮高光期,还并不常见地被誉为“蒸汽机时刻”、“iPhone时刻”甚至“钻木取火时刻”。

这一年来,被称为“生成式人工智能”的革命性技术激发了全球科技界“把所有软件和硬件重做一遍”的冲动,让具有先发优势的AI基础设施提供商价值暴涨,使得从医疗到航天的科学探索获得被加倍赋能的前景,传说中“奇点”的到来从未变得如此具有可能性。

正如历史上任何一次技术变革,ChatGPT也给我们带来了深深的焦虑。既有对AI威胁人类生存的科幻式恐惧,也有对砸掉我们饭碗、骗取我们钱财、操纵我们心灵的现实担忧。连OpenAI自身,也刚刚经历了一场危机,差点没躲过一夜坍塌的命运。

这一年让我们产生了更多疑问:大语言模型下一步的进化方向是什么?AI芯片短缺何时解决?训练数据快要耗尽了吗?中国的百模之战会如何演化?AI技术发展应加速还是减速?AGI(通用人工智能)是否会存在其他形式?为此,我们邀请了2023年在AI赛道奔跑的业内人士回答这些问题,并提出他们自己的问题。如果你也有自己的回答或提问,欢迎告诉澎湃科技(www.thepaper.cn)。

算力与数据,是支撑大型语言模型发展的两大基础设施,类比发动机和燃料。生成式人工智能浪潮兴起一年来,这两个因素的重要性陡然提升,也凸显出更紧迫的优化需求。

如果说OpenAI是这场浪潮的引领者,那英伟达就是获得了最大实际利益的玩家。今年以来,这家AI芯片公司的股价已上涨241%,市值突破万亿美元,其领先市场的GPU(图形处理器)和高性能计算设施被全球科技企业争相抢购。“现在业内最好的(AI)芯片是英伟达的。”云知声智能科技股份有限公司董事长兼CTO梁家恩告诉澎湃科技,尽管也存在一些挑战者,但“英伟达的生态构建时间长,很多软件和它适配”。

尽管“三年之内很难出现能挑战英伟达的玩家”,但北京开放传神科技有限公司(OpenCSG)创始人兼CEO陈冉对澎湃科技表示,“国内同类别的一些高性能芯片已经可以达到美国厂家60%左右的性能,现在已经解决了一部分高性能AI芯片短缺的问题。”梁家恩也有类似看法,“国内能够顶上的是华为昇腾,可用问题目前不大。”信也科技副总裁、大数据及AI负责人陈磊认为,国内芯片离英伟达同等芯片还有一定距离,但不是赶不上,应该还需要一些调优空间。

在AI芯片短缺的同时,一个更长远的问题也被负责任地提起。上海市数据科学重点实验室主任、复旦大学教授肖仰华指出,当通用人工智能大规模应用之后,它在应用阶段的算力将会成为不可忽视的能耗来源,其带来的能源消耗及相应的环境保护问题,必须受到高度关注。“某种程度上我们可以把它归结为AI对人类能源的一种侵噬,这有可能会成为AI进一步发展的制约性因素。”

有限的不仅是能源,还有数据。今年7月,加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素(Stuart Russell)发出警告称,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。研究机构Epoch估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。

对此,北京智谱华章科技有限公司(智谱AI)CEO张鹏认为:“并不是说数据完全耗尽了,数据的生成速度是越来越快的,呈现爆炸式增长,怎么把快速增长的数据都利用起来,是未来要研究的。”

英矽智能联合首席执行官兼首席科学官任峰向澎湃科技表示,数据的数量只是一个方面,更重要的是质量。蚂蚁集团副总裁、金融大模型负责人王晓航也认为,数据质量比规模数量更重要,而要达到高质量的数据,还是要跟产业合作。

“有一种说法是预计2025年左右,全世界50%左右的数据会来自感知和传感等IoT(物联网)数据,这部分数据基本上没有被使用,又蕴含着现实社会中的大量知识,能产生新的能力。”王晓航谈到了对高维度数据的挖掘。

而对于合成数据的利用,肖仰华表示,利用人类已经积累的科学原理去指引相应的数据生成,然后再将这种数据喂给大模型,使其形成一种近乎人类直觉的判断和生存能力,是一个非常重要的趋势。

以下为采访实录,因篇幅原因有删减:

大模型的训练数据快要耗尽了吗?

澎湃科技:预计大模型训练什么时候会用完现有数据?

陈磊(信也科技副总裁、大数据及AI负责人):根据研究机构的分析,从文本的大模型来说,高质量数据可能在2026年耗尽,这是根据前两年大模型使用的token(注:在AI领域token通常指文本处理过程中的最小单位)的数量,以及现在高质量数据的来源做的简单测算。

张鹏(北京智谱华章科技有限公司CEO):互联网这几十年发展积累的数据,已经公开的基本上都用到了,剩下的数据还有很多没有公开或者有版权约束。并不是说数据完全耗尽了,数据的生成速度是越来越快的,呈现爆炸式增长,怎么把快速增长的数据都利用起来,是未来要研究的。

陈冉【北京开放传神科技有限公司(OpenCSG)创始人、CEO】:这个问题就像人类对宇宙的探索是否会终止一样?不会。数据会不断涌现出来,而且很多数据没有数字化。

王晓航(蚂蚁集团副总裁、金融大模型负责人):与其问什么时候用完现有数据,不如说如何广泛挖掘和利用多模态等更高维度的数据,这些多模态数据不只是视频,还有跟世界互动的数据。有一种说法是预计2025年左右,全世界50%左右的数据会来自感知和传感等IoT(物联网)数据,这部分数据基本上没有被使用,它又蕴含着现实社会中的大量知识,能产生新的能力。其次是产业怎么参与进来,每一个大产业都有至少千亿级token的高质量数据,如何高质量萃取数据、注入、跟应用场景连接,是下一个阶段的发展方向。

梁家恩(云知声智能科技股份有限公司董事长兼CTO):“用完”是个伪命题,我们在互联网上不可能抓到所有数据,也就谈不上“用完”。全网能获取的高质量公开数据,大部分已经喂到模型里了,企业内部存储的数据通常都无法获取,获取不到就谈不上“用完”。“用完”的概念还不如换成“用好”。

任峰(英矽智能联合CEO兼首席科学官):这要看研发什么样的模型。在生物医药领域,比如要做靶点发现,这个数据目前来看是够用的。难点在于验证,即我们需要很长时间去验证数据有效性。

同时,数据的数量只是一个方面,更重要的是数据的质量。我们在收集生物医药中专门领域的数据方面都有专门的团队,叫做数据清洗团队,他们会将质量不好的数据或不符合要求的数据删除。如果掺杂着很多错误数据,模型生成的结果精度就比较低,甚至说生成的结果就是错误的,某种程度上对我们而言就是不能接受的,这可能跟一般的大语言模型不同。

目前我们的数据来源主要是文献、专利和一些公开的数据库,有时候也可以买一些数据库。以后我们希望可能有来自医院的数据,每个医院都有自己的数据,但这些数据不会被开源。如果有朝一日有比较好的机制,医院能够把数据对外开放的话,整个数据量跟现在相比就会不在一个量级,但是现在还没有办法完成这样的开放。

澎湃科技:让AI生成数据去喂养大模型现实吗?

王凤阳(百度集团副总裁、移动生态商业体系负责人):实际上,大家已经在这么做了。因为在大模型已经有逻辑推理和生成能力以后,它本身就是一个很好的输入。

王晓航:这已经在做了,有高级版和初级版。高级版就是数据耗尽以后怎么合成数据达到同样的高质量,包括OpenAI也在做。国内百模大战的很多数据都来自一流大模型,GPT是世界上最大的打标工厂,但问题是限制了下游模型的天花板,造成模型坍塌现象。

陈磊:有些公司已经在做这件事了,一般的方向是用一个比较好的大模型或规模更大的大模型生成数据,经过人工调整,再喂给稍微小一点的模型,降低训练成本。这里面很大的一个问题就是,怎样保证AI生成数据的质量,这也是有大量的技术门槛。有一些论文在讨论怎么形成比较好的数据,这有待时间检验。最怕的是Garbage in garbage out(无用输入无用输出),最终模型退化、崩溃。

张鹏:学术界有在思考,也在研究。之前有研究说,当用模型本身生成的数据来训练模型时,会导致模型坍缩。但研究上也没有把这种说法板上钉钉钉死。

陈冉:这个问题可以这么问,什么时候让AI生成高质量的数据,使得大模型训练不需要找外部的数据。如果这么问,我觉得很难。因为给大模型灌的数据是有限的,各行各业的核心竞争力是自己的数据。所以谁会把数据喂给大模型让它学会这个领域?我觉得大家会慢慢意识到,谁都不想往大模型灌数据了,因为大家都想各自活出来。

肖仰华(上海市数据科学重点实验室主任、复旦大学教授):我认为合成数据实际上是指,在相应的原则和规则指引下生成的数据,比如遵照特定物理数学规律生成的数据,像根据勾股定律生成符合勾股定律的数据,这种数据对于炼制大模型的数学思维、物理思维、专业能力都非常重要。所以让大模型去认知这种人类已经在自然学科积累的各种专业知识非常重要。

事实上人类的认知一直有“系统1”和“系统2”的说法。系统1主要实现直觉思维,系统2实现符号化的逻辑思维,这也是很多专业工作开展过程中所依赖的思维方式,大模型目前在这种思维方面的能力仍然有局限,所以利用人类已经积累的科学原理去指引相应的数据生成,然后再将这种数据喂给大模型,使其形成一种近乎人类直觉的判断和生存能力。这是一个非常重要的趋势,甚至有可能让大模型具备人类大脑系统2的符号思维、逻辑思维能力的关键一步。

梁家恩:至少我们的语音合成出来以后再去反哺我们的语音识别是有帮助的。我相信类似的情况在视觉方面应该也会有帮助,因为AI能生成的数量太大了,它比标签数据规模更大。AI生成数据更大的作用在于帮我们提升稀疏样本的覆盖度,而不是提升质量。

比如在声音识别中,有些词文本里有,但网上从没人说过,如果用不同音色合成出来,就相当于提前看到了生僻词,用AI生成数据覆盖这种词语是有帮助的。但利用AI生成高频数据,无论输出语言、文本或知识,我觉得不会有太大帮助,甚至可能有负面作用。

澎湃科技:如何让更多高质量数据变得可用?

王晓航:今天,数据质量比规模数量更重要。中文世界的金融数据大致在2000多亿token量级,我们自己获取了内外部的私域公域数据是1700多亿左右token,但经过萃取、去重、质量筛选后,我们认为能够达到应用标准的只有170多亿token。每个产业都是这样的,要达到高质量的数据,还是要跟产业合作。所以OpenAI征求产业深度合作伙伴,走得非常正确,因为没有办法用通用的方式去理解专业领域的数据质量的高与低。

未来最重要的一个方式是怎么让现实世界中复核和验证的数据源能够参与到语料数据的生产或处理中,在良莠不齐的数据中帮助我们更好把握哪些数据源是更加可信的。比如判断分析师的水平,就是看他的预测跟市场发展的一致性有多高。所以怎么把现实世界中对数据质量的反馈融入到数据体系里,长期来说这是非常重要的。

肖仰华:未来,一方面是要将更多广泛存在的低质量数据转变成高质量数据;另一方面,从可用性的角度,现在能用的数据大部分是开放数据,未来在经过合理授权、合法数据交易的前提下,使用更多高质量的私域数据来炼制大模型。比如图书馆的图书数据在相应的版权许可下,就有可能成为大模型炼制非常重要的数据来源,还有媒体数据,尤其是主流媒体高质量的数据,都值得炼制大模型的相应能力。

梁家恩:好数据是高质量且多样化的。先判断哪些数据是高质量,哪些质量不高,质量不高的数据放进去反而有害。我们要适应全网各种各样的数据,哪怕它本身是垃圾数据。所以我们内部也会用一些策略做数据优选,通过滚动迭代的方式选择更好的数据。

陈磊:第一,通过互联网方式获得的公开数据差异性不大,收集全面、完整性好的数据是关键。第二,收集的数据质量参差不齐,不可能把所有互联网数据都放在模型里,按照什么标准筛选数据,同时在一定范围内对数据进行加工和清洗,这有较大技术门槛,比数据采集难度更高。第三,未来数据怎样实现共享也是一个大话题,世界的知识就那么多,没有必要所有人都去清洗数据。

张鹏:这是一个综合性问题,不光是怎么获得数据,还涉及到知识产权保护、隐私等,需要监管部门、企业、个人等一系列社会群体共同商量。只要大家认识到这个问题,愿意解决这个问题,就有可能坐下来谈。如果是技术性问题,就解决技术性问题,比如怎么用隐私计算或者联邦学习解决数据保密和联合学习问题。如果是监管或社会性问题,就通过法律法规约束。

陈冉:什么时候大家对数字化转型了解得很完整,什么时候国家监管非常透明,什么时候大家有非常好的工具,什么时候有非常好的上下游数据生态,高质量数据就变得可用了。

澎湃科技:未来一年,Web 3.0在支撑大模型数据上会有什么重要进展?

陈冉:虽然区块链解决了货币、数字、唯一性问题,但人类一直没有融入元宇宙。人类也是数字体,我们去医院看病会把数据下载下来,去消费会把使用习惯下载下来,怎么让元宇宙或Web 3.0把这些元素贯通,形成联系?我认为未来每个人有可能由一个或多个模型组成,所以什么时候多个模型组成人类唯一实体并在元宇宙里出现,元宇宙有可能会重新爆发,软件定义一切才能实现。

陈磊:Web 3.0场景里的数据可能能够支撑大模型特别是多模态大模型的训练。另外大模型在Web 3.0里的应用值得期待,特别是智能体的出现能够让我们的很多应用变得很不一样。

梁家恩:不管底层支撑是什么,本质上还是看数据。我们关注的是,在Web3.0中,可能未来优质的多模态数据会更多,目前更多的还是以文本为主导,多模态数据质量参差不齐。

澎湃科技:对于大模型在数据方面面临的挑战,你最想知道答案的一个问题是什么?

王晓航:比较系统和公认的数据质量分级标准是什么?怎么判断数据好与不好,能不能建立一个公认可行的规范和机制。每个行业有各种各样的标准,对于纯粹依赖数据的大模型技术,有没有科学的方式对这些语料和数据按照质量进行评级?

陈冉:灰色地带的数据的定义是什么?搞清楚这个问题,生产力有可能会形成质的改变。

陈磊:未来模型跟模型之间的交互、模型之间数据的交互到底应该是什么样?比如中文世界的大模型跟英文世界大模型怎样交互。

梁家恩:大家越来越注重数据了,但数据标准化、安全、产权规则现在还不清楚,这会成为利用数据的障碍,数据利用成本也高。这个问题怎么解决?

英伟达会一家独大多久?

澎湃科技:何时能解决高性能AI芯片的短缺问题?

梁家恩:我们目前做千亿级参数的模型是够用的,后面要看业务需求,业务扩张会需要更多算力。现在业内最好的芯片是英伟达的,国内能够顶上的是华为昇腾,可用问题目前不大。我们有一部分工作在软件上完成,通过软件优化芯片的利用效率,我们在英伟达A800的利用率上可以做到60%左右,同样的硬件情况下,有更好的计算能力。

陈冉:中美在生成式预训练模型方面的芯片代差不止一两年。中国能否造出高性能AI芯片,答案是肯定的。放眼历史,解决生产力问题的是市场,如果有广大的市场需求,解决AI芯片就是时间问题。我们现在跟国产AI芯片合作,国内同类别的一些高性能芯片已经可以达到美国厂家60%左右的性能,现在已经解决了一部分高性能AI芯片短缺的问题。

陈磊:我也没有特别好的预判。我们采购GPU的挑战还比较大。但有两点,第一,现在AI芯片整体产能短缺,台积电前段时间也说封装产能不够,从全球来讲可能要一年半以后,产能才能跟上客户的需求。第二,从长期来讲,AI芯片的采购慢慢会回归到合理的市场行为。

另外国内的芯片也在发展,美国的禁令客观上也给国内企业带来了新机遇。国内的AI芯片都是未来可能的一些选项,我们也做了相关的测试,发现性能还不错,离英伟达同等的芯片还有一定距离,但不是赶不上,应该还需要一些调优空间。

澎湃科技:到什么时候会出现真正能挑战英伟达的玩家?

陈磊:短期挺难,除了硬件,英伟达的软件生态已经积累了比较大的壁垒。但长期来看,有一些玩家可能会对它的市场占有率造成一些影响,比如美国的AMD,AMD的消费级芯片市占率不错,数据中心的占有率相对较低,如果把消费级的能力在数据中心上延展,应该是有机会的。另一个可能的玩家是谷歌,谷歌的TPU(张量处理器)未来只要愿意走自由化的支持路线,也会对英伟达有影响。

梁家恩:单从算力和硬件指标来说,AMD的MI300X算力也不差。但英伟达的生态构建时间长,很多软件和它适配,软件迁移会有一些隐性成本。

陈冉:在国外,微软、谷歌、AMD、英特尔都想吃这个蛋糕,玩家早已出现。在国内,三年之内很难出现能挑战英伟达的玩家,但可以拭目以待。

澎湃科技:除了GPU,AI芯片还有其他路线吗?

陈冉:可以通过GGML(张量库)等软件技术,用CPU做大模型推理。因为GPU太贵,使用成本非常高,很难实现业务转型。除了CPU,还有TPU。路线肯定会越来越多,唯一的目的是降本增效,让普适的硬件通过软件方式达到同样效果。

陈磊:没有GPU的时候,有的场景用CPU也能跑。有段时间FPGA(现场可编程逻辑门阵列)也是一个选项,可以用在特定场景。回到大模型,有TPU、NPU(嵌入式神经网络处理器)。NPU是更贴近深度学习的AI芯片。未来量子计算涉及到的组件也有可能在AI领域使用,不过短期内商业应用会有些挑战。

梁家恩:存算一体大家看得比较多,但离量产还有距离。量子计算也还在实验阶段,商业化还需要时间。

澎湃科技:边缘计算或终端计算在未来一年的发展趋势是什么?

梁家恩:边缘计算的芯片现在没有限制,未来把一部分不复杂的计算移到边缘端来做,让边缘侧支持大模型计算,应该也是大势所趋,高通已经做了一些工作。

陈冉:大模型以后肯定是普适、平民化的,大众都可以具备。大模型真正服务于个人时,还是要回归带宽、算力服务距离,已经有一些厂家开始做边缘计算的大模型解决方案了。我觉得明年中就会有基于大模型的方案应用到PC等个人终端上,未来边缘计算跟大模型的结合是大趋势。

陈磊:这两个不是新概念。从商业应用角度讲,未来云边端的协同发展可能会更顺畅。现在建了大量数据中心,也是希望把适合集中式计算的和适合端侧计算的做一些分离。大模型出现以后,这一块的发展可能会更加迅速。

我们也看到一些大模型玩家把大模型往移动端做压缩和裁剪,未来可能在端侧计算能力下也能跑一些大模型应用,带来交互上的提升,出现新的应用,这可能是大模型对边缘计算和终端计算带来的一些新范式。

当然还存在挑战,比如终端的计算能力能否和大模型裁剪以后的计算能力匹配、精度损失如何控制、怎么和云端做交互,现在还处于原型验证阶段。

澎湃科技:如何解决高算力带来的能源消耗与环保问题?

陈冉:H100升级到H200的过程中,能耗降低了。另一个趋势是实际能耗跟外部环境相关,比如机房的温控和散热。所以首先从模组和算子下功夫,另外从数据中心上解决能耗和环保问题。但很难说把一个模组降低到非常低的能耗,它毕竟要计算,要耗电。

陈磊:我们可以把大模型足够压缩,让算子效能足够高,从本质上让大模型需要用到的算力变得更低,这是一种可能的方式。第二种方式是在硬件层面做低功耗、高散热处理。第三,不要一味追求每个应用都用大模型来做,还是要根据不同场景来平衡精度和能效,有的场景用大模型,有的场景用小模型,让整体能耗下降,这是更经济的方式。可以把有的场景用大模型和小模型都做出来做比对,观察资源的使用情况。从算法本身角度来讲,大模型更适合解决通用问题,小模型适合解决细分场景问题。当然也有一些场景会有小模型调用大模型、大模型调用小模型的情况。第四,从更大的角度来说,以前讲数据孤岛,现在有资源孤岛,怎样把资源统一起来集中化管理,根据弹性按需使用,这也是一个比较好的方式。但我们从企业角度来讲,前面三个方式可能会更容易做到。

肖仰华:AI算力的能源消耗已经成为了未来AI治理中的一个非常核心的问题。

目前全球最高端的算力基本上都用在了大模型的训练中,随着大模型需求的日益广泛,可以预见未来将会有更多的算力投入AI训练和应用过程中。当通用人工智能大规模应用之后,它在应用阶段的算力也将会成为不可忽视的能耗来源,所以其带来的能源消耗问题及相应的环境保护问题,必须受到高度关注。

某种程度上我们可以把它归结为AI对人类能源的一种侵噬,这有可能会成为AI进一步发展的制约性因素。因为除了发展AI之外,人类仍然有很多问题要解决,比如出行需要能源、太空探索也需要消耗很多能源,所以将来AI对能源的抢占将成为一个日益突出的问题,而且这个问题可能会被隐藏在 AI社会治理各种表象问题的背后。事实上各大厂商在资本逐利的利益驱动下,一定是会不计成本加大对大模型的研发,所以我认为这个问题将会日益突出。

这是一个全社会将来要从方方面面重视的问题。首先企业应该将AI的能耗控制及相应的环保问题作为企业社会责任、环境保护治理的核心新内涵之一。其次,每一个人要充分意识到AI带来的环保问题。第三,政府应该把AI的能源消耗和环境问题纳入AI治理的范畴之内。目前这个问题谈的比较少,AI治理更多还是解决其对社会经济结构、个人价值体系等方面的影响,所以AI能耗问题需要引起足够重视,同时要积极采取措施。

澎湃科技:对于大模型的算力支撑,你最想知道答案的一个问题是什么?

陈磊:适用于大模型的AI芯片架构到底是什么样的?因为现在比较大的问题是大模型越来越大,对芯片内存要求越来越高。解决内存问题有两个路径,一是存算一体,二是把多个芯片结合起来变成一个大集群。但还是比较希望知道最终优秀的AI芯片架构到底是什么样的。

梁家恩:下一代芯片架构的新设计思路何时能成熟商用?从存算一体或量子角度来看,未来应该怎么做来突破现在芯片的能耗和物理边界。因为如果按照现在的方式来做,能耗越来越高,工艺接近硅原子的极限。

陈冉:量子计算能否跟大模型结合?如果通过量子计算,GPU有可能被淘汰。下个时代怎样能够帮助大模型实现质变,有可能到GPT-5甚至GPT-6就可以通过量子计算机实现了。