人工智能领域的开源问题一直存在,其中最大的争议点是到底什么样的人工智能可以称之为“开源”。开放源代码倡议(OSI)作为业内公认的开源仲裁机构,二十五年来一直负责管理开放源代码定义 (OSD)。在过去两三年中,OSI 致力于为开源 AI 制定定义和标准,以构建可供任何人用于研究、修改和共享的 AI 系统。
因此,开放源代码倡议(OSI)邀请了 70 人组成的团队,包括研究人员、律师、政策制定者和活动家,以及 Meta、GOOGLE和AMAZON等大型科技企业的代表,来共同协商制定 AI 开源定义。他们在全球范围内进行了数月的意见收集和“路演”以期收到更多元、更全面的关于 AI 开源定义的反馈,最终,OSI 于 10 月 2 日首次发布了开源 AI 定义的暂行版本 1.0。
OSI 实行董事 Maffulli 表示,定义仍处于试用阶段:“这是 1.0 版本,但是一个非常简陋的 1.0。大家并不是说这已经是板上钉钉的事情了。”。
开源 AI 定义 1.0 版本:https://opensource.org/ai/drafts/the-open-source-ai-definition-1-0-rc1
但让人意外的是,1.0 版本发布后在社区中引发了广泛讨论,有不少声音质疑 OSI 放宽了对于开放源代码 AI 的定义。为此,OSI 董事会近日又就开放源代码 AI 定义(OSAID)进行投票,微调后的 1.0 版本标准准则也定于 10 月 28 日发布(截止发稿前还未发布)。
此前,由于 AI 开源标准的缺失带来了很多问题。虽然 OpenAI 和 Anthropic 决定对其模型、数据集和算法保密,这使得他们的 AI 成为闭源的,但一些专家认为,Meta 和 谷歌 的免费模型(任何人都可以检查和调整)也不是真正的开源,因为许可证限制了用户可以对模型做什么,而且训练数据集不公开。
人工智能模型构建和共享平台 Hugging Face 的应用政策研究员 Avijit Ghosh 表示:“众所周知,企业在营销其模型时会误用该术语。”将模型描述为开源可能会使它们被认为更值得信赖,即使研究人员无法独立调查它们是否真的是开源的。
训练数据对于研究 AI 系统极具价值,包括理解模型已经习得的偏见,以及这些偏见可能对系统行为造成的影响。但训练并不是对现有 AI 系统进行修改的首选形式。这些数据中的见解和相关性已经被模型习得。
就目前情况而言,有人认为 OSAID 并没能实现其希翼保障的四项基本自由。例如 Julia Ferraioli 就评论称,如果不包含数据,那么 OSAID 所能约束的就只剩下使用和分发 AI 系统的能力。“开源参与者可以通过迁移学习和微调等方法在此基础之上进行构建,但也就仅此而已。”
Tom Callaway 也在 LinkedIn 上详细阐述了为什么应当将数据开放纳入标准要求。他承认,出于种种相当充分的理由,AI 系统的发行商可能不愿意或者无法发布训练数据。例如,数据本身可能具有很高的货币价值,而供应商可能不愿或者无法进行共享。Acme Corp 可能会授权某些数据集,允许开发者利用其创建 AI 系统,但却不允许开发者对数据本体进行发布。另外数据发布还可能造成法律问题,例如涉及机密性(如医疗数据集)或者避免因泄露受版权保护的数据而面临诉讼。
他强调,上述情况让不发布 AI 系统的训练数据有了合理的理由,但同时也破坏了将 AI 系统划为“开放”性质的现实意义:
如果大家在开源 AI 定义中保留不公布数据这样一个缺口,无疑会损害“开源”这个定义的基本立场。虽然很多企业都希翼能够收紧开源的约束范围,但我认为大家在这方面绝不能够妥协,哪怕这在起步阶段会影响到符合开源定义的 AI 系统数量。
有些团队认为需要更多组件来保证开源 AI 的高透明度,也有一些人认为模型参数和架构就足以定义 AI。开源 AI 的定义由全球各利益相关方公开参与制定,他们在构建 AI 方面拥有深厚的专业常识,也意识到虽然各种方法各有合理性,但都达不到理想要求。OSAID 希翼授权用户权利(以许可证的形式)和工具(以所需组件列表的形式),帮助他们以符合现实意义的方式参与 AI 系统的协作和创新(必要时亦可分叉)。大家并没有在原则上作出妥协,只是一路以来从真正的 AI 专家那里学到了很多新东西。
Maffulli 反对 OSAID 变得软弱或者做出了让步的说法,并表示 OSAID 最核心的诉求在于修改机器学习系统的首选形式:“这不是我个人或者 OSI 董事会的决定,而是支撑者们以及卡耐基梅隆大学的意见。”他补充称,OSI 综合了“来自世界各地的 AI 构建者、用户和部署者、内容创建者、工会、伦理学家、律师以及App开发人员”的意见,并最终得出了这一定义。他同时强调,对过往开源定义进行“简单翻译”在 AI 领域根本行不通。
RedMonk 分析企业创始人 Stephen O’Grady 也认为,原有开源定义在 AI 项目当中很难直接转化。但他的观点恰恰相反,认为开源一词“不一定能或者说不应该扩展到 AI 领域”。他在 10 月 22 日发表的博文中说明道:
从本质上讲,目前围绕 AI 开源定义展开的讨论,就是在强行把一个二十多年前诞生的术语拖进 AI 时代,用以描述一种狭义资产,而不是真正涵盖一种全新的、更为复杂的未来工件集合。
在 O’Grady 看来,OSI 已经走上了一条更加务实的开源 AI 定义之路,其中的种种细节都需要认真对待。开源之所以能够取得成功,部分原因就在于开源定义消除了这些细微差别。一份许可证到底符不符合开源定义?这个问题可以有明确的答案。但 OSAID 则没那么简单或者明确。他眼中务实的道路: