欧洲杯足彩官网-星空体育网站入口官网手机版 > > 正文

被冤枉的李开复,被“错付”的中国开源|微软|谷歌|科学家|投资者|插件功能-欧洲杯足彩官网

分享至


出品 | 虎嗅科技组

作者 | 王一鹏

头图 | 视觉中国

就像过往所有的开源“套壳”事件一样,漩涡中心的主人公们,往往在开源社区和舆论的声讨下成为众矢之的,又在发布回应或道歉信后,快速被遗忘,不论结果与对错。

李开复和他的零一万物就是如此。11月6日,零一万物首次公布yi-34b大模型,自豪地宣布yi-34b“勇夺全球开源评测‘双料冠军’”。然而仅过了不到一周,在大模型开源社区的主阵地huggingface,就有开发者指出,yi-34b完全使用了meta开源的llama架构,只修改了两个张量名,且在发布中,全程未提及llama的存在。

由于李开复本人的“明星效应”,事件快速发酵,引爆了舆论。11月15日,零一万物发布回应,道歉并承诺把张量名字改回去,同时复盘了零一万物在大模型训练和代码层面所做的工作。

其实李开复是有点委屈的,因为零一万物似乎没做错什么。

一位律师向虎嗅表示,他和来自英美的律师团队,都就此事有过交流。各位律师从各自法域的视角出发进行分析,认为零一万物并未违反llama的开源协议。

甚至在国外开源社区,也有不少专家为零一万物鸣不平。事件的源头人物,在huggingface社区披露此事的erichartford在社区不断强调,他只是建议零一万物将修改的张量名改回去,并不带有其他指责,使用llama架构没什么问题,模型训练才是一切。

x(twitter)上也有人回应对零一万物抄袭的指责:荒唐,现在许多大模型都是基于llama训练的。况且,事件发生一个月的时间里,meta或llama社区,自始至终未以官方身份与零一万物,就所谓的“套壳”问题进行交涉,某种程度上也代表了官方的态度。

截止到12月8日,yi-34b在huggingface上已收获11万次下载,显然非常受欢迎。


图片内容来自 hugging face

但这些事实,与主流舆论声音无关。在与国内多位媒体人、开发者交流后,我们发现,几乎无人“站队”零一万物。一股萦绕不去的失望、不满,飘荡在零一万物及中国开源的上空。

一场社区争论,成了捅向零一万物的“刀”

joséphuscheung是在零一万物“套壳”事件中,受到关注较多的一名开发者。在huggingface的社区,他和前文提到的erichartford爆发了一场带着火药味的争论。

erichartford称零一万物修改张量名就好,其他的没毛病。而joséphuscheung则认为零一万物此举违反了llama的开源协议,是个大问题。

双方的激辩因为transformer核心贡献者、huggingface工程师arthurzucker及其他开发者的介入而终结,大家回复joséphuscheung道,llama的开源协议主要限制了模型权重,而不是模型架构,所以零一万物的yi-34b并未违反开源协议。

有趣的是,这场公开的争论传回国内时就变了味——大量的媒体、ugc内容单方面引用了joséphuscheung的言论,称零一万物被开发者警告存在合规风险,而对反对派的声音及最终结论避而不谈。恐怕joséphuscheung自己也不知道,他的发言已经成为一部分人声讨此事的间接证据。

造成此种问题的原因之一,是大模型技术本身的特殊性。有专家与虎嗅聊到,大模型有三大件:算法、数据和权重。

其中,算法以模型架构为载体呈现,也是零一万物饱受非议的焦点;数据则是大家讨论aigc通常会聊到的数据集,相当于给ai提供的学习教材;权重是神经网络的基本概念,代表了两个处理单元之间的连接强度。通俗地来理解,“权重”就像一个员工给另一个员工发消息——有的是普通消息,有的是特别提醒,有的是“ding”一下。而对于接收消息的员工而言,消息权重越高,影响越大。

这与过往的软件产品截然不同。曾几何时,代码等于一切,对应着大模型概念里的“模型架构”。对于大模型来说,架构只是“三大件”的其中之一。在mamba架构面世未久,transformer架构一统江湖的当下,甚至架构的重要性还不如数据和权重。而数据和权重属于工程性问题,对应着模型的训练。有知情人透露,openai训练gpt-4时,可能有20个团队同时参与,是相当庞大的工程。

所以,yi-34b使用llama架构,远远谈不上“套壳”,这是大模型技术本身的特殊性决定的。

有大模型技术专家,对虎嗅就大模型的早期研发问题也做了进一步补充:“llama,gpt都是基础大模型,基于transformer架构训练,使用了不同的方法,有encode-decode结构的,也有像gpt类decodeonly的。所以从零开始的话,就是要基于像transformer这样的架构重新开发,并自己训练,各大厂商自研大模型都是如此的。还有一类就是基于现有的基础大模型,有continuepretrain,finetune等方法,进行再训练或者微调,基于llama这样的开源架构,有很多团队在上面做工作。”

也就是说,基于llama训练大模型,是国内大模型创业的主流形态,至于从零开始自研,有专家表示:“国内没有几家创业公司能做到这事儿,成本很高,算法要求很高,数据集要求很高,工作量很大,也很容易出错。”

另有行业内人士对虎嗅说道:“国内真正从零到一研发大模型的可能也就三家——百度、阿里、智谱。“

当然,上述所有真实情况,并未让零一万物在国内舆论层面得到同情或豁免,甚至也没有使其在技术社区获得更多支持。

一方面,零一万物发布大模型,却对llama采取避而不谈的宣传策略——llama的唯一一次出现,是在yi-34b的竞品性能对比里,且数据指标被超越——难免让人觉得零一万物在道义上对llama有所亏欠,在宣传上玩了一个小小的“心机”。


图片内容来自零一万物官方公众号

另一方面,国内的开源历史,实在谈不上阳春白雪,甚至可以说是饱受争议。一桩桩“套壳”公案,屡见不鲜,公众的忍耐度,就像充气过度的气球,处在爆发的边缘。今天对零一万物的所有质疑,其实都是在质疑那个外表光鲜的中国开源。

中国开源,积怨已久

就在今年8月24日,一款宣称是完全国产、自主研发的ide开发工具上架了,结果被网友扒出是“换皮微软vscode”,引发群嘲,两天后出品方致歉并将软件下架。

2021年,startrocks和apachedoris发生纠纷。apachedoris本是由百度捐献给apache基金会的数据库项目,startrocks则是apachedoris的项目分支,原名叫dorisdb,鼎石纵横团队围绕dorisdb成立商业公司,在品牌方面构成侵权。据思否报道,apachedoris的项目导师、孵化器pmc都曾联系startrocks进行劝阻,但被无视。一系列纠纷被曝光后,startrocks引发众怒,不得已私下与apachedoris达成和解,息事宁人。

2020年,中科院计算所下属团队号称完全自主设计、开发和实现的编程语言“木兰”,被人发现套壳python。相关负责人道歉,说“木兰”编程语言原本要用于中小学教育,是他自己夸大宣传了。

3c领域更是开源违规的重灾区,小米、一加、文石(电子书厂商),都曾成为社区的集中吐槽对象。中国开源的“违规史”,简直可以写成一本年鉴。

而开源本身带有国际属性,连带使中国优秀的开源人,在国际上遭受不同程度的非议和歧视。

一位国外网友曾在reddit上抱怨道:"这就是我不喜欢中国软件的原因,他们几乎总是不尊重许可证,并尽一切可能逃脱惩罚(thisiswhyidon'tlikechinesesoftware.almostawaystheydon'trespectlicensesanddowhatevertheycangetawaywith)"。

在很长一段时间里,中国的开源布道者们,都是带着少数优秀项目,与行业惯性和国际歧视“拔河”,时间一久,就会“苦中作乐”——某知名开源基金会布道师对虎嗅表示:“说心里话,现在挺好了,已经有很多进步了。如果是十年前,有人套壳开源软件,甚至不会引发任何讨论和报道,谁关心呢?现在至少大家会讨论这事儿。”

2021年,apacheskywalking创始人吴晟,当选apache基金会第一位华人董事,成为圈子里普天同庆的喜事。

有利可图,无需付出代价,通常是违规行为的诱因。使用免费代码的利益,显而易见。而在开源问题上弄虚作假,确实也不会对国内的企业产生太多实质性影响。

一般套壳的惩罚也不过是道歉并将软件下架,但因为这类软件都是套壳抄袭的,所以也不存在太多研发上的”沉没成本”。

直到2021年,国内才出现第一起与开源协议(gpl)有关的侵权案件,被告作为侵权方最终被判罚50万元。而与gpl协议相关的第一起案件宣判,已经是2005年发生在德国的事了。从2005年到2021年,中国开源在法律层面存在16年的实践空白。

在实施力度上,中外也有所差别。在2005年的案子里,慕尼黑法院对侵权方fortinet发出了临时禁令,禁止fortinet销售产品,直到符合许可证条款。同时,fortinet被迫根据gpl协议将他们的fortios(一款服务软件安全领域的操作系统)免费提供给外界。

开源相关侵权案的审理,更多是在参考传统的著作权纠纷案件。与刑事案件不一样,著作权纠纷案件,需要由被侵权方主动发起诉讼。在这起fortinet侵权案中,发起诉讼的是一个非营利性组织gpl-violations.org,该组织发起于2004年,致力于对侵权者施加压力,对侵权行为发起行动。国外,这样的组织不止一个,在国内则难得一见。

那么,资本层面会对开源违规行为做出反应吗?虎嗅也试图就此类问题,与投资人进行沟通,但大家则对此讳莫如深,不愿多谈。目前还未有明确证据显示,国内企业发生开源违规,会导致融资困难。

不过,一名在开源领域创业的ceo对虎嗅说道:“如果是在美国,这样的公司(发生侵权、套壳行为的公司)后续就不会拿到融资了。”

真正的痼疾:开源等于免费

实际上,即便不考虑弄虚作假的情况,当下中国的大部分开源项目,也与理想模式相去甚远。大众层面对于开源所有的期待,其实可以用一句话来总结:打破技术垄断,振兴中国技术。但中国开源当下只是个瘦骨嶙峋的孩子,不足以背负这种宏图伟愿。

开源的概念很抽象,公众对其更直观的印象来自一些改变世界的伟大软件,比如:linux、mysql、android,以及如今的transformer。其中,linux内核遍布全球服务器、iot设备,mysql撑起全球数据库的半壁江山,android撑起手机操作系统半壁江山,transformer几乎是所有大模型的架构基础。

将“印象”等化为“期望“,让现实变得有些难以接受。事实上,中国开源的发展目标,在产业侧是妥协过的,创业的ceo往往不会太感性,只求先在商业层面获得成功即可。

但”曲线救国“的策略有利有弊,在中国出现一家成功ipo的开源企业之前,妥协的恶果已经开始显现。

开源有一条重要的原则叫做“upstreamfirst“,上游优先原则,意味着企业在免费试用开源代码的同时,也要反馈意见和代码到开源社区,确保社区维护的主干版本可以优先迭代,推动软件不断走向完善。这是开源能够创造价值、互惠互利的“飞轮”。

但一部分国内企业选择竭泽而渔。在他们看来,开源没有这么复杂——开源等于免费。向社区贡献代码?要么招聘几个社区开发者,要么以后再说吧。

这或许也解释了,为什么在aigc快速发展的2023年,中国企业在大模型上的爆发,仅限于数量——抄来的终究是别人的,不参与开源贡献,通常也不会具备真正的技术优势。

大模型在架构上的源头是transformer,据ossinsight数据统计,在transformer社区中,提issue(答疑交流、反馈缺陷)的top10榜单,只有两家中国单位,一个是北京大学,一个是清华大学,没有一家中国企业。前五分别是:微软、huggingface、谷歌、卡内基梅隆大学、英特尔。

在pullrequest(贡献代码)top10榜单里,只有腾讯一家公司入榜,排在第十,前五分别为:微软、huggingface、谷歌、英伟达、facebook(meta)。


transformer 各企业 pull request 占比,内容来自 oss insight 网站

细看两个榜单的前五名公司,微软和谷歌皆是当今aigc领军人物,联手奠定了当今的ai格局。meta发布了开源llama大模型,成为最被中国企业青睐的“借鉴对象”。huggingface仅用一年时间就实现了估值翻倍,如今估值超过40亿美金,nba球星杜兰特也参与了其天使轮融资。

卡内基梅隆大学,前段时间刚与斯坦福大学联手发布了mamba架构,号称要颠覆transformer。它实现了公众对于开源的期待——学习、参与,最终完成超越。

再看看llama,issue(答疑交流、反馈缺陷)top10榜单,没有一家中国公司入选,只有哈尔滨工业大学排在第五;pullrequest(贡献代码)top10榜单,有三家中国公司:星鲸科技、腾讯、水木分子生物科技,分别排在第四、第八、第十位。

近五年,以bat、字节为代表的头部企业,也注意到这个问题,纷纷成立开源办公室,希望能塑造企业内的开源文化。但其中一部分项目,又被行业戏称为“kpi式开源”——指员工为了完成kpi而去更新开源项目,该项目的寿命因kpi完成或岗位变动而终结。甚至有开源社区专家表示,根本不相信所谓的“大厂开源”,认为其天然在社区贡献者多样性这个问题上存在劣势。

目前公认比较健康的开源项目,大部分集中在云原生、大数据领域,分别捐赠给了linux基金会和apache基金会。至于剩余的百余家国产大模型企业,99%不在这些榜单里。近期关于aigc的一系列重磅进展,也忠实地反映了这个结果。

这个结局,企业能接受,投资人能接受,某种意义上,部分开源人也能接受。剩余不能接受的人,满怀愤怒。这让所有的明星开源创业团队,都像坐在“火药桶”上创业,一个火星,就能让人灰飞烟灭。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

notice: the content above (including the pictures and videos if any) is uploaded and posted by a user of netease hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
股市皆大事
2023-12-16 20:40:29
绝对军评
2023-12-12 09:25:55
ds北风
2023-11-24 22:45:23
新民晚报
2023-12-16 07:46:05
南方都市报
2023-12-16 20:18:14
小鱼滑
2023-12-01 00:59:08
网上车市
2023-12-16 21:12:25
第一财经资讯
2023-12-16 13:01:21
青丝人生
2023-12-11 17:52:04
据说说娱乐
2023-12-16 20:14:16
今天你笑了没
2023-12-08 11:35:03
冷月小风风
2023-12-16 10:23:23

人不可貌相!要将董宇辉踢出局的孙东旭,早就是十亿级别的富豪!

西瓜爱娱娱
2023-12-15 14:45:14
股海风云大作手
2023-12-16 20:52:32
小鹿话三农
2023-12-16 14:54:24
老黄有话
2023-12-11 08:00:03
生活小妙招贴士站
2023-12-16 18:02:12
历史有些冷
2023-12-07 08:00:07
知识渊博物馆
2023-12-17 01:37:35
a都市纪实
2023-11-17 13:50:44
2023-12-17 04:30:44
虎嗅app
个性化商业资讯与观点交流平台
20834文章数 683078关注度
往期回顾 全部

一天涨粉300万!董宇辉进俞敏洪直播间回应一切

拉夫罗夫:已有多位西方领导人就"俄乌谈判"找我谈话

拉夫罗夫:已有多位西方领导人就"俄乌谈判"找我谈话

意甲-奥斯梅恩破门 戏耍后卫助攻 那不勒斯2-1卡利亚里暂升第4

马国明汤洛雯泰国大婚!两人深情拥吻

董宇辉:还是会继续在东方甄选

定位中大型豪华suv 凯迪拉克全新vistiq官图

态度原创

租金直降1000元/月不是少数,广州租房市场也冷清了

想考两本教资,先认定还是继续考?

《星之海洋2 第二次故事r》评测:核心依旧的现代化工程"/> 主站 商城 论坛 自运营 登录 注册 《星之海洋2 第二次故事r》评测:核心依旧的现代化工...

黑龙江对岸,俄罗斯也有一个黑龙江州?

网站地图