Модели искусственного интеллекта нуждаются в гораздо большем количестве данных, чем может предложить реальный мир. Синтетические данные предоставляют решение этой проблемы — генеративный ИИ исследует статистические распределения в реальном наборе данных и создает новый - синтетический, для обучения других моделей ИИ. Однако есть немалый риск возникновения интерсекциональных галлюцинаций искусственного интеллекта, когда он начнет выдавать результаты, которые маловероятны, предвзяты или просто невозможны - и могут нанести ущерб.
На протяжении столетий сравнительный метод был основой научных исследований: врачи определяли проблему, собирали данные, искали закономерности и разрабатывали модель для ее решения. Есть надежда, что искусственный интеллект (ИИ) — который самостоятельно создает модели из данных — сможет сделать это процесс гораздо быстрее, эффективнее и точнее, чем люди.
Однако для обучения моделей ИИ требуется очень много данных, и некоторые из них приходится делать синтетическими — то есть не реальными данными от реальных людей, а данными, которые воспроизводят существующие закономерности. Большинство синтетических наборов данных сами генерируются машинным обучением ИИ.
Неточности в работе генераторов изображений и чат-ботов легко заметить, однако синтетические данные также порождают галлюцинации ИИ — он выдает результаты, которые маловероятны, предвзяты или просто невозможны. Как и в случае с изображениями и текстом, иногда это может показаться забавным, но широкое использование таких "глючных" систем может привести к потенциальному вреду.
Чтобы продолжить чтение, оформите абонемент.
Пожалуйста, подождите!
Мы подбираем для вас наиболее подходящее предложение подписки...
Предложение о подписке не отображается? Пожалуйста, отключите блокировщик рекламы или перезагрузите страницу.
В случае вопросов пишите на konts@delfi.lv