Квебекская национальная библиотека и архивы запускают экспериментальную фазу создания масштабного правительственно-культурного банка данных, призванного улучшить способность систем искусственного интеллекта понимать общество, культуру и языки провинции.
Причины проекта
Крупные генеративные ИИ-системы часто дают неточную информацию о Квебеке из-за малочисленности местных данных в обучающих наборах. В 2024 году доклад Совета по инновациям Квебека подчеркнул недостаток «данных о Квебеке».
Эксперимент и задачи
Bibliothèque et Archives nationales du Québec (BAnQ) завершила технико-экономическое обоснование и приступила к 12-месячной экспериментальной фазе проекта. Инициатива включает создание базы данных на французском и языках коренных народов провинции.
Сначала BAnQ будет использовать собственные фонды, прежде чем привлекать данные от других организаций. Платформа не станет публичным каналом распространения произведений: доступ к данным будет строго контролироваться.
Мировой опыт
Подобная инициатива уже реализуется в Швеции, где собраны крупные коллекции текстов на нордических языках для развития генеративных ИИ-моделей.
Цитаты руководства
«Все сценарии пока на столе. У нас много идей, и мы хотим проверить возможности совместно с культурными стейкхолдерами, а также с владельцами и поставщиками данных, которые будут участвовать в обсуждениях», — заявила Валери Д’Амур, возглавлявшая технико-экономическое обоснование.
«Это означает наличие квебекских референций — как в малых, так и в больших моделях, будь то в научной среде или в бизнесе», — отметила президент и генеральный директор BAnQ Мари Грегуар.
Глубина проблемы
«Квебекская культура остаётся недопредставленной в корпусах данных, которые сейчас циркулируют в мире ИИ. А когда речь заходит о коренных народах — риск предубеждений становится ещё выше», — предупредил Дестини Тчеуали, соруководитель исследовательской кафедры по франкоязычному ИИ при Университете Квебека в Монреале.
Права авторов и бюджет
Проект оценивается в почти $10,5 млн на период до 2030 года, включая операционные и капитальные расходы. BAnQ уже получила $340 000 от правительства Квебека на обоснование и дополнительно $750 000 на экспериментальную фазу.
«Сейчас это похоже на Дикий Запад: данные собирают бесплатно, и это неправильно. База может стать центральным шлюзом для упрощения компенсации авторам», — подчеркнула Мари Грегуар.
Будущая перспектива
По результатам эксперимента сроки достижения операционной готовности, изначально запланированные на 2029 год, будут пересмотрены.
«Предлагаемая база данных является стратегической инфраструктурой, которая поможет установить принципы идентификации, каталогизации и отслеживания локального контента в ИИ-системах», — добавил Дестини Тчеуали.
«Главная критика: даже если авторы получают доход, они продолжают кормить «зверя», который может заменить их контракты», — отметил Максим Харви, постдок Национального института научных исследований и участник той же исследовательской кафедры.




