AI 数据荒雪上加霜,MIT 发现网页数据的公开共享正走向衰落
MIT 等机构的研究发现,开源数据集如 C4、RefineWeb、Dolma 等网站的数据许可正在收紧,大量数据难以获取,这对 AI 模型训练和学术研究造成阻碍。研究显示,数据许可的不对称性与不一致性,以及数据与 AI 模型训练用途的不匹配问题。此外,AI 数据共享空间限制增加,预测未来开放网络数据将逐年减少。因此,需要标准化和优化数据许可协议,以更好地反映网站所有者的意愿,并解决数据创建者和 AI 科技公司之间的紧张关系。
MIT 等机构的研究发现,开源数据集如 C4、RefineWeb、Dolma 等网站的数据许可正在收紧,大量数据难以获取,这对 AI 模型训练和学术研究造成阻碍。研究显示,数据许可的不对称性与不一致性,以及数据与 AI 模型训练用途的不匹配问题。此外,AI 数据共享空间限制增加,预测未来开放网络数据将逐年减少。因此,需要标准化和优化数据许可协议,以更好地反映网站所有者的意愿,并解决数据创建者和 AI 科技公司之间的紧张关系。