文 | 周鑫雨
编辑 | 邓咏仪
北京时间2023年12月16日上午,科技媒体command line作者alex health的一篇文章,将openai对字节跳动的控诉摆到了台前。
这篇“檄文”中,字节被指控在大语言模型开发项目project seed中,几乎每个阶段都在秘密使用openai的模型api来训练和评估模型。
“参与的员工们对此心知肚明。”alex health声称自己在字节的沟通平台飞书上亲眼所见,员工讨论如何通过数据脱敏来粉饰证据,“滥用非常普遍,以至于project seed的员工经常达到访问api次数的上限。”
这场控诉的结局是,openai禁止了字节跳动的账户。openai发言人niko felix通过alex health发表了声明:
所有 api 客户都必须遵守我们的使用政策,以确保我们的技术得到良好利用。虽然字节跳动对我们 api 的使用很少,但我们在进一步调查期间已暂停了他们的帐户。如果我们发现他们的使用不遵守这些政策,我们将要求他们进行必要的更改或终止其帐户。
openai 发言人 niko felix的声明。
所谓的“seed”,是字节在2022年末就启动的基础大语言模型开发项目。该项目下有两个主要产品,一个是已在国内推出的聊天机器人“豆包”,一个则是正在开发中的、计划通过火山引擎对外提供服务的机器人平台。
一名业内人士对36氪表示,国内厂商用国外主流模型的api先试水业务、训练模型的情况并不少见:“先用先进模型把业务跑起来,等自己的模型训练能力达到标准再进行替换。”
而多名知情人士则向36氪透露,目前字节跳动的模型业务比距,无论是产品项目flow,还是大模型项目seed,都有国内海外业务两手抓的打算。由于政策规定,国内业务将采用字节自主研发的模型,而海外业务,将先采用国外厂商的模型api服务。
在openai的服务条例中,确实存在竞争保护相关的内容。为了防止客户使用openai的服务开发竞品,openai对客户的使用范围做了严格的规定:只允许开发非商用的用于数据治理的ai模型,或者用于微调openai对外服务的模型。
openai的服务条例。
“拉黑”风波后,字节跳动发言人jodi seth在当日也快速做出回应。她表示,gpt生成的数据在project seed早期被用于标注模型,并在今年年中左右从字节跳动的训练数据中删除:
字节跳动获得了微软使用gpt api的许可。我们使用gpt为非中国市场的产品和功能提供动力,但使用我们的自我发展模型为豆包提供动力,豆包仅在中国可用。
这则声明承认了字节存在用gpt生成的数据训练模型的行为,但这个行为发生在openai设定服务条例之前。可见的是,openai最早一版服务条例发布于2023年8月28日,而字节声称在年中前已经停止将gpt生成的数据应用于训练过程。
openai的第一版服务条例更新于2023年8月。
字节回应的另一个重点,则是强调gpt的api服务是通过微软云服务azure,而非从openai直接获得。换言之,openai的“拉黑”,显得越俎代庖。
不过,即便是微软azure,也拥有与openai类似的竞争保护条款:“客户不得使用且不允许第三方使用微软生成式人工智能服务创建、培训或改进(直接或间接)类似或具有竞争性的产品或服务。”
微软azure生成式人工智能服务条款
如今,不少人都在等待微软azure的回应。对海外ai业务依赖于国外厂商api的字节而言,微软的态度将至关重要。
欢迎交流
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
notice: the content above (including the pictures and videos if any) is uploaded and posted by a user of netease hao, which is a social media platform and only provides information storage services.