Искусственному интеллекту уже нечего изучать, поэтому придется внедрять в обучение ИИ-моделей синтетические данные.

Маск согласился с мнением других специалистов в сфере искусственного интеллекта, которые считают, что реальных данных для обучения ИИ-моделей почти не осталось.

Мы исчерпали практически весь накопленный объём человеческих знаний для обучения ИИ. Это произошло фактически в прошлом году.

Маск как глава компании xAI, придерживается общего мнения с бывшим главным научным сотрудником OpenAI Ильей Суцкевером.

Выступая на конференции по машинному обучению  NeurIPS в декабре, Суцкевер заявил, что в индустрии ИИ был достигнут "пик данных". Теперь недостаток обучающих данных  приведет к поиску новых подходов для разработки моделей-ИИ.

Илон Маск предложил применять синтетические данные, которые будут создавать сами ИИ-модели.

Единственный способ дополнить реальные данные — это синтетические данные, где ИИ сам создаёт обучающие материалы. С синтетическими данными ИИ будет оценивать себя сам и проходить через процесс самообучения.

Такое решение уже внедряется крупными технологическими компаниями, в том числе Microsoft, Meta, OpenAI и Anthropic, которые обучают свои экспериментальные ИИ-модели на синтетических данных.

По сведениям Gartner, 60% данных, применявшихся для проектов в области ИИ и аналитики в 2024 году, были сгенерированы искусственно. 

Например, на этой неделе был выложен в общий доступ открытый код модели Microsoft Phi-4, известно, что она обучалась на комплексе синтетических и реальных данных.

Такой же подход применялся при разработке моделей Google Gemma.

Anthropic задействовала синтетические данные при подготовке одной из своих самых эффективных систем - Claude 3.5 Sonnet.

Meta усовершенствовала последнюю серию моделей Llama, используя ИИ-сгенерированные данные.

Одно из преимуществ обучения на синтетических данных - это экономическая целесообразность. 

По информации стартапа Writer, модель Palmyra X 004, разработанная почти полностью на синтетических источниках, обошлась лишь в $700 000. В то же время оценочная стоимость сопоставимой модели OpenAI составляет $4,6 миллиона.

У подобного подхода есть и существенные минусы. Согласно отдельным исследованиям, синтетические данные способны создать ситуацию "коллапса модели".

В этом случае ИИ не может быть "креативным" и выдает более предвзятые результаты. Это в итоге может сильно ухудшить функциональность искусственного интеллекта. Так как модели генерируют синтетические данные на базе уже имеющихся, все предубеждения и ограничения в исходных данных станут воспроизводиться в выдаваемых результатах.