“2028年互联网上所有高质量文本数据将被使用完毕”
·研究公司Epoch AI预测,到2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。·研究人员指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会导致“模型崩溃”(model collapse)。AI大模型训练数据是否短缺这一话题再次成为近期众多媒体关注的热点。近日,《经济学人》杂志发布题为《AI 公司很快将耗尽大部分互联网数据》(AI firms will soon exhaust most of the intern…