AI 数据荒雪上加霜，MIT 发现网页数据的公开共享正走向衰落

科技动态 2024-08-13 6:01

MIT 等机构的研究发现，开源数据集如 C4、RefineWeb、Dolma 等网站的数据许可正在收紧，大量数据难以获取，这对 AI 模型训练和学术研究造成阻碍。研究显示，数据许可的不对称性与不一致性，以及数据与 AI 模型训练用途的不匹配问题。此外，AI 数据共享空间限制增加，预测未来开放网络数据将逐年减少。因此，需要标准化和优化数据许可协议，以更好地反映网站所有者的意愿，并解决数据创建者和 AI 科技公司之间的紧张关系。

AI 数据荒雪上加霜，MIT 发现网页数据的公开共享正走向衰落

本站提供的内容用于个人学习、研究以及其他非商业性或非盈利性用途，内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

发表回复取消回复

AI 数据荒雪上加霜，MIT 发现网页数据的公开共享正走向衰落

推荐阅读：

本站提供的内容用于个人学习、研究以及其他非商业性或非盈利性用途，内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

发表回复 取消回复

发表回复取消回复