Национальная библиотека Квебека запускает экспериментальный проект по созданию базы культурных и государственных данных на французском и языках коренных народов, чтобы улучшить понимание искусственным интеллектом квебекской действительности.
Что происходит и зачем это нужно
Библиотека и Национальный архив Квебека (Bibliothèque et Archives nationales du Québec, BAnQ) перешли к экспериментальной фазе проекта после завершения в этом году технико-экономического исследования его осуществимости.
Проблема в том, что крупные генеративные ИИ-системы предоставляют ненадёжную или неполную информацию о квебекском обществе, экономике и культуре из-за недостатка соответствующих данных в обучающих выборках. В 2024 году Совет по инновациям Квебека отметил «очень малый объём данных о Квебеке» в датасетах для обучения ИИ.
По словам Дести Чеуали (Destiny Tchéhouali), руководителя квебекской исследовательской кафедры по франкоязычному ИИ и цифровым технологиям при Университете Квебека в Монреале (UQAM), квебекская культура остаётся недопредставленной в текущих корпусах данных. Он предупреждает о риске лингвистических и культурных предвзятостей, который становится ещё выше при работе с данными о коренных народах.
Как устроен проект
По словам президента и генерального директора BAnQ Мари Грегоуар (Marie Grégoire), цель проекта — обеспечить наличие квебекских референций «в малых и больших моделях, как в исследовательской, так и в бизнес-среде».
Схожие инициативы уже реализуются за рубежом. В Швеции, например, собраны крупные корпуса текстов на скандинавских языках для разработки генеративных моделей ИИ.
Чеуали отмечает, что предложенная база станет «стратегической инфраструктурой», которая поможет выработать стандарты идентификации, каталогизации и отслеживания местного контента в современных ИИ-системах.
Авторские права и защита создателей
Авторское право стало одной из ключевых проблем для культурного сектора. По словам Мари Грегоуар, «сейчас это немного похоже на Дикий запад: данные собираются бесплатно, и так быть не должно». Она добавила, что платформа может стать централизованным шлюзом для упрощения выплаты вознаграждений авторам.
Некоторые художники опасаются, что даже при выплате гонораров ИИ в перспективе может заменить традиционные контракты. Так, постдок Национального института научных исследований и участник той же исследовательской кафедры Максим Харви (Maxime Harvey) предупреждает: «Основная проблема в том, что авторы подпитывают систему, которая затем может заменить их работу».
Сроки и финансирование
Технико-экономическое исследование предполагает, что платформа может заработать к 2029 году, однако сроки будут пересмотрены по итогам экспериментальной фазы. Бюджет проекта на пять лет до 2030 года оценивается в 10,5 млн долларов США, включая капитальные и операционные расходы.
BAnQ получила от правительства Квебека 340 тыс. долларов на проведение технико-экономического исследования и ещё 750 тыс. долларов на 12-месячную экспериментальную фазу.




