По данным Министерства юстиции и цифровых технологий, Эстония передала компании Meta для внедрения в ее приложения почти 4 млрд слов, чтобы создать предпосылки для увеличения репрезентации эстонского языка и культуры в моделях искусственного интеллекта.
Министерство юстиции и цифровых технологий: мы не заключали отдельного соглашения с Meta
Хотя из пресс-релиза, распространенного Министерством юстиции и цифровых технологий, казалось, что соглашение с Meta уже заключено, Бриттен Торстенберг, советник министерства по связям с общественностью, заявила, что компании Meta не предоставлено особых прав по сравнению с другими компаниями, учреждениями или исследовательскими проектами.
«Компанию Meta проинформировали, что в Институте эстонского языка (EKI) имеется современный корпус эстонского языка (электронная база данных, состоящая из текстов - ред.). Это свободно доступный и полезный материал для каждого. Корпус доступен в базе данных EKI под лицензией CC BY 4.0, которая позволяет свободно использовать данные», - отметила Торстенберг.
По ее словам, важно отметить, что по сравнению с «Википедией» в языковом корпусе невозможно прочитать или просмотреть тексты. «Благодаря этому ресурсу вы можете увидеть, как ведет себя слово, например, изучить грамматические формы слова или более частые модели его использования. Но это не позволяет читать полные документы», - добавила она.
Торстенберг отметила, что для обучения языковым моделям важно, чтобы искусственный интеллект мог качественно общаться на эстонском языке и учитывать эстонский культурный контекст. «Для достижения этой цели необходимы модели обучения, основанные на большом объеме высококачественных лингвистических и культурных данных. Конечно, это должно быть сделано юридически правильно. Дальше будем анализировать, нужно ли менять - и какие - правовые базы», - сказала она.