Искусственному интеллекту уже нечего изучать, поэтому придется внедрять в обучение ИИ-моделей синтетические данные.
Маск согласился с мнением других специалистов в сфере искусственного интеллекта, которые считают, что реальных данных для обучения ИИ-моделей почти не осталось.
Мы исчерпали практически весь накопленный объём человеческих знаний для обучения ИИ. Это произошло фактически в прошлом году.
Маск как глава компании xAI, придерживается общего мнения с бывшим главным научным сотрудником OpenAI Ильей Суцкевером.
Выступая на конференции по машинному обучению NeurIPS в декабре, Суцкевер заявил, что в индустрии ИИ был достигнут "пик данных". Теперь недостаток обучающих данных приведет к поиску новых подходов для разработки моделей-ИИ.
Илон Маск предложил применять синтетические данные, которые будут создавать сами ИИ-модели.
Единственный способ дополнить реальные данные — это синтетические данные, где ИИ сам создаёт обучающие материалы. С синтетическими данными ИИ будет оценивать себя сам и проходить через процесс самообучения.
Такое решение уже внедряется крупными технологическими компаниями, в том числе Microsoft, Meta, OpenAI и Anthropic, которые обучают свои экспериментальные ИИ-модели на синтетических данных.
По сведениям Gartner, 60% данных, применявшихся для проектов в области ИИ и аналитики в 2024 году, были сгенерированы искусственно.
Например, на этой неделе был выложен в общий доступ открытый код модели Microsoft Phi-4, известно, что она обучалась на комплексе синтетических и реальных данных.
Такой же подход применялся при разработке моделей Google Gemma.
Anthropic задействовала синтетические данные при подготовке одной из своих самых эффективных систем - Claude 3.5 Sonnet.
Meta усовершенствовала последнюю серию моделей Llama, используя ИИ-сгенерированные данные.
Одно из преимуществ обучения на синтетических данных - это экономическая целесообразность.
По информации стартапа Writer, модель Palmyra X 004, разработанная почти полностью на синтетических источниках, обошлась лишь в $700 000. В то же время оценочная стоимость сопоставимой модели OpenAI составляет $4,6 миллиона.
У подобного подхода есть и существенные минусы. Согласно отдельным исследованиям, синтетические данные способны создать ситуацию "коллапса модели".
В этом случае ИИ не может быть "креативным" и выдает более предвзятые результаты. Это в итоге может сильно ухудшить функциональность искусственного интеллекта. Так как модели генерируют синтетические данные на базе уже имеющихся, все предубеждения и ограничения в исходных данных станут воспроизводиться в выдаваемых результатах.