AI 数据荒雪上加霜,MIT 发现网页数据的公开共享正走向衰落

科技动态

MIT 等机构的研究发现,开源数据集如 C4、RefineWeb、Dolma 等网站的数据许可正在收紧,大量数据难以获取,这对 AI 模型训练和学术研究造成阻碍。研究显示,数据许可的不对称性与不一致性,以及数据与 AI 模型训练用途的不匹配问题。此外,AI 数据共享空间限制增加,预测未来开放网络数据将逐年减少。因此,需要标准化和优化数据许可协议,以更好地反映网站所有者的意愿,并解决数据创建者和 AI 科技公司之间的紧张关系。


本站提供的内容用于个人学习、研究以及其他非商业性或非盈利性用途,内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注