字节跳动有没有类似chatgpt的产品 字节爆出AI“套壳”瓜,低调是原罪?
出品|虎嗅科技组
作者|齐健
编辑|王一鹏
头图|视觉中国
在大模型热潮中,一直保持低调的字节跳动,日前也被曝出了“套壳“的瓜。
当地时间12月15日,外媒The Verge曝出字节跳动正在秘密研发一个被称为“种子计划”( Seed)的AI大模型项目。据称该项目在训练和评估模型等多个研发阶段调用了的应用程序接口(API),并使用输出的数据进行模型训练。
在API调用和对输出内容的使用方面,的使用协议明确规定了:禁止使用输出开发竞争模型。
在2023年11月14日更新的使用条款中还规定了:
的使用条款中对于违规用户的处理办法是:在提前通知的情况下,随时终止服务。
服务条款中禁止的事项
而目前,隶属于字节跳动公司名下的部分GPT使用权限均已被封禁。
发言人Niko Felix在一份声明中表示:“所有 API 客户必须遵守我们的使用政策,以确保我们的技术用于正确用途。虽然字节跳动对的API使用量很少,但在进一步调查期间,我们已暂停了他们的帐户,如果我们发现他们的使用不遵守这些政策,我们将要求他们进行必要的更改或终止他们的帐户。”
真的“套”了吗?
首先可以确定的是,字节跳动肯定是在业务当中使用了的API。
The Verge的报道中提到,字节跳动发言人Jodi Seth表示,GPT生成的数据在 Seed 开发的早期就用于注释模型,并在 2019 年中期被从字节跳动的训练数据中删除。不过,Jodi Seth在一份声明中也表示,在字节的海外市场中的一些服务使用了的API。但在国内的“豆包”,使用的是字节自主开发的“云雀”模型。
据一些与字节跳动海外业务相关的人士表示,字节跳动的海外业务使用的是在微软Azure上的云服务Azure 。
调用的API,对于公司和个人来说都是很平常的事情。并不能因此就说大模型研发公司调用了的API是抄袭或是套用数据。
不过,The Verge在报道中提到了字节跳动的一些内部文件可以证明字节跳动正在使用输出的数据进行模型训练,“有员工在飞书上讨论了如何‘数据脱敏’以掩盖调用的API进行模型训练的行为。”
虎嗅向一些与字节跳动AI研发团队有关的人士,询问了字节跳动是否使用了输出的数据训练模型,得到的回复均是“不方便评价”。
一位火山引擎团队人士向虎嗅透露,字节AI研发团队在模型训练上投入的算力非常可观,“不管数据来源如何,在大语言模型训练方面,AI团队确实是在刻苦研发的。”
此外,The Verge的报道中还提到”他们(字节)说要确保一切都合法,只是不想被抓。“多位工程大模型从业者对虎嗅表示,这种观点相当片面,甚至有些不怀好意。
“面向公众开放的AI大模型,最重要的就是内容安全问题,不管训练过程中是否用过的数据,都不可能直接把这些输出这些内容。”一位参与某国内AI大模型内容审核工作的人士向虎嗅表示,目前国内AI大模型对于数据合规、安全性的考虑相当严格,甚至是模型产品研发过程中的首要考量。
有趣的是,虎嗅就训练数据问题向字节跳动的语言模型产品“豆包”提问了几轮。得到的回复均是没有采用过的技术或数据。
字节跳动大模型产品“豆包”的问答截图
数据“套壳”很普遍
事实上,在训练过程中用到输出的内容,虽然有违的使用条款,但这在LLM领域并不是什么新鲜事。
最常见的此类操作就是模型蒸馏(Model ),这也是深度学习领域的一种常见的训练方法。通常用于将一个大型、复杂的模型(称为“教师模型”)的知识转移到一个更小、更简单的模型(称为“学生模型”)中。这个过程的目标是让小模型模仿大模型的行为,以便它可以在保持较低计算复杂性的同时,接近或达到大模型的性能。
“模型蒸馏的教师模型,也应该来自于自研模型。但今天研发大模型的人普遍急功近利,很多人也就顾不了这么多了。”一位AI研发工程师告诉虎嗅,业内利用别人的模型进行基础开发的不在少数,有些公司也会公开承认自己的模型是基于某个开源模型蒸馏而来。
除了字节跳动之外,另一家之名公司,在强大的内容“输出”之下,也爆出了数据“套壳”的新闻。
12月9日,马斯克新建的x.AI公司推出的LLM产品Grok,被网友质疑直接“套壳”了。一位X用户在向Grok提问的过程中,得到的回答居然是:“我无法完成您的请求,因为它违反了的用例政策。”
网友发布X称:Grok说自己不能“违反的用例政策”
对此,xAI的工程师Igor 在这条推文下面解释说,这是因为的输出充斥网络,导致Grok很难不受到的影响,而输出与或相关的信息。他表示:“这个问题非常罕见,我们已经意识到这一点,并将确保未来的Grok版本不会出现类似的问题。Grok的开发没有使用任何代码。”