В Латвии создается глобальный центр интеллектуальных языковых технологий и машинного перевода. В случае успеха пилотного проекта, начатого местной IT-компанией Tilde совместно с Microsoft, в страну потекут инвестиции, исчисляемые многими миллионами.

close-ad
Продолжение статьи находится под рекламой
Реклама

Как рассказал&директор агентства Kultūras informācijas sistēmas Арманд Магоне, уже в середине января будет создана межминистерская рабочая группа, задачей которой является разработка организационной схемы создания глобального центра интеллектуальных языковых технологий и машинного перевода. Проект получил название "Берег языков" (Valodu krasts). Фактически речь идет о кластере, который объединит латвийских ученых, частные фирмы, библиотечные информационные системы, а также привлечет к сотрудничеству специалистов аналогичного профиля из других стран. Для реализации проектов планируется также привлечь финансирование из фондов Европейского союза. Центр станет работать над созданием лингвистических систем, которые будут использоваться ведущими производителями компьютерного оборудования, программного обеспечения, информационных технологий — Microsoft, с которым уже начаты пилотные проекты, а также брендами уровня Nokia.

Идея проекта Valodu krasts созрела в начале минувшего года с подачи комиссии по стратегическому развитию при президенте Латвии. Уже прошлой весной во время визита Валдиса Затлерса в США состоялась встреча с исполнительным директором Microsoft Стивом Балмером. Стороны обсудили перспективы сотрудничества в сфере высоких технологий, в частности, создания в Латвии центра, который будет заниматься вопросами языковых технологий, включая машинный перевод, при использовании различных ИТ-приложений, а также в сети Интернет.

К концу минувшего года проект Valodu krasts обрел реальные очертания. Между компаниями Microsoft и Tilde, латвийской ИТ-компанией, специализирующейся в области языковых технологий, был заключен контракт о реализации пилотных проектов в течение года. Взяв за основу технологии англо-латышского машинного перевода, ИТ-специалисты обеих компаний будут работать над созданием универсальных систем, которые в дальнейшем смогут использоваться для разработки систем машинного перевода и информационного поиска для других национальных языков (хорватского, болгарского и т.п.). Такие системы будут интегрированы в продукты компании Microsoft — новый поисковик Bing, переводчик microsofttranslator.com, следующие версии Office и другие. Руководители Tilde рассказали о перспективах нового направления и сложностях, которые придется преодолеть.

"Сегмент интеллектуальных лингвистических систем стремительно развивается, и производители заинтересованы во внедрении новых функций в свои решения. Скажем, такие вещи, как конвертация речи, к примеру, во время интервью, в электронный формат или ее машинный перевод, допустим, на китайский язык с последующим синтезом звучащей китайской речи — очень перспективное направление. Международный центр, который мы намерены создать и который имел бы определенные наработки в этой области, привлечет инвестиции со стороны зарубежных ИТ-компаний, исчисляемые в миллионах", — говорит Арманд Магоне. "В мире нет таких центров и мы можем стать первыми", — добавляет председатель правления ИТ-компании Tilde Андрей Васильев.

"Мы должны доказать, что наши технологии успешно работают. Пока у Microsoft нет других партнеров по машинному переводу на национальные языки, Tilde может стать единственным и эксклюзивным партнером, что для компании означает кардинальное повышение статуса — от балтийского к глобальному. Латвии, в свою очередь, это несет развитие новой отрасли, производящей инновационные продукты с высокой добавленной стоимостью", — говорит Андрей Васильев. Латвийским разработчикам будут предоставлены доступ к ноу-хау американской корпорации и возможность изучения программных продуктов Microsoft изнутри. В целях защиты информации компаниями подписан ряд соглашений о соблюдении конфиденциальности. Под грифом секретности находятся также данные о финансировании, которое Microsoft предоставляет латвийским партнерам. В дальнейшем обе стороны будут работать и обмениваться информацией в основном дистанционно, по шифрованным интернет-каналам.

Почти "очеловечили"

& попыталась выяснить, чем же привлекли Microsoft латвийские разработки и как можно адаптировать системы машинного перевода, настроенные на латышский, к другим национальным языкам: ведь грамматика и структура различных языков отличаются.

Как пояснил Андрей Васильев, на сегодняшний день смысл машинного перевода состоит не в получении высококачественного готового текста, а в том, чтобы иметь представление о содержании исходника на иностранном языке. Однако эта область интенсивно развивается и есть надежда, что со временем плоды работы е-переводчика будут похожи на перевод, осуществленный человеком. Уже сейчас простые предложения уровня учебника для пятого класса, не осложненные художественными оборотами, системы переводят вполне читабельно.

Главная сложность высококачественного машинного перевода заключается в том, что язык человека невероятно богат и одно слово зачастую имеет более одного значения, которые меняются в зависимости от контекста. В компьютерных системах, безусловно, описываются основные правила грамматики, используются автоматические словари и т.п., однако запрограммировать все возможные вариации реально просто невозможно. Особенно это касается художественных текстов. Обычно профессиональный переводчик переводит такие тексты в первую очередь по смыслу, а не дословно. Поэтому, отмечает Андрей Васильев, параллельно используется контекстный анализ. Выглядит это примерно так. Есть тексты, уже переведенные человеком и доступные в электронном формате, тоаесть имеются, к примеру, английский текст и его латышский перевод. Таких исходных материалов должно быть огромное количество. Андрей Васильев говорит, что им очень помогает тот факт, что все европейские документы, в коих содержится свыше 20 миллионов английских слов, сейчас переведены на латышский и другие национальные языки стран — участниц ЕС. Эти массивы информации по специально разработанным алгоритмам обрабатываются программой, которая анализирует и сопоставляет отдельные слова, словосочетания и предложения в английских и латышских текстах, для того чтобы установить, что означает конкретное слово или словосочетание в том или ином контексте. В результате на свет появляется система машинного перевода, ориентированная на перевод текстов определенной тематики.

Глава Tilde рассказал, что сейчас наиболее качественные англо-латышские переводы имеются в области юридических документов (благодаря вышеупомянутой европейской базе), а также в сегменте компьютерных знаний. Последнее обусловлено тем, что Tilde уже более 10 лет занимается локализацией программных продуктов и накопила собственную базу англо-латышских переводов. Что касается других областей знаний, то тут сложность заключается именно в недостаточном объеме исходных "человеческих" переводов, имеющихся в электронном формате. & поинтересовалась, а почему бы не использовать издаваемые в Латвии переводные книги? Андрей Васильев говорит, что в таком случае многое упирается в авторские права: использование печатных изданий для этих целей требует тщательного юридического анализа.

Библиотеки подсобят

Тем не менее выход есть. Арманд Магоне рассказал, что сейчас в Латвии одна из самых продвинутых в Европе сеть библиотек, в которых внедрены ИТ-решения и подключен Интернет для публичного пользования. Кроме того, ведется оцифровка печатных изданий и периодики, накопленных в библиотечных архивах, что позволит снабдить компьютерных лингвистов исходными материалами для создания различных интеллектуальных систем. При этом читатели, работающие с литературными и научными материалами через Интернет и использующие системы электронного перевода, могут играть роль "тестеров", что позволит разработчикам усовершенствовать свои решения.

Андрей Васильев добавил, что компания Tilde работает также над решениями для поисковых систем. Современные интернет-поисковики зачастую отбирают информацию, исходя из отдельных заданных слов. В результате пользователи получают массу ненужных и далеких от искомого ссылок. К примеру, сейчас по такому принципу с латышскими текстами работает система информационного поиска Bing, разработанная компанией Microsoft. В идеале же поисковик должен проанализировать запрос, понять его семантику и выдать требуемый результат.

Tilde также занимается и системами распознавания звучащей речи. У разработчика есть программы, читающие электронные тексты с нужной интонацией, паузами, учетом знаков препинания (в основном их используют слабовидящие люди). В перспективе такие технологии позволят, к примеру, во время поездки в машине, прослушивать сообщения, которые пришли на электронную почту, или заголовки последних новостей, а также подавать голосовую команду прочитать заинтересовавшее письмо или статью или же надиктовать письмо, которое система переведет в электронный формат и сама отправит адресату.

Огромные инвестиции

Однако такие разработки, подчеркивает Андрей Васильев, требуют огромных инвестиций. Когда речь идет о "больших", или глобальных, языках — английском, французском, немецком, русском — есть экономический смысл вкладывать в научные исследования: за счет обширной аудитории такие решения окупятся. С малыми национальными языками ситуация осложняется, и разработчикам приходится искать ноу-хау, чтобы сделать технологии более дешевыми, но при этом не в ущерб качеству. "Один из вариантов решения проблемы — объединить работу одновременно над несколькими языками, сотрудничать с различными зарубежными ИТ-компаниями и научно-исследовательскими центрами и обмениваться знаниями и таким образом экономить ресурсы и получать общий, более эффективный и качественный результат. В этом и состоит главная идея проекта Valodu krasts", — рассказал предприниматель.

Тем не менее разработать технологию — это полдела. Надо еще донести ее до пользователя, и этому может способствовать сотрудничество с компаниями такого уровня, как Microsoft. Ведь сейчас, по словам г-на Васильева, многие интернет-продукты ведущих мировых брендов хорошо адаптированы к глобальным языкам, однако малые национальные языки в лучшем случае поддерживаются в усеченном виде. Однако только в Европе множество малых языков, например, болгарский, хорватский, чешский, словацкий и т.п., и брендам выгодно, чтобы международный центр, подобный Valodu krasts, существовал и позволял быстро и качественно адаптировать их системы к местным языкам, тем самым существенно расширив аудиторию пользователей. К примеру, в системе microsofttranslator.com и других лингвистических модулях встроен машинный перевод для "больших" языков, малых в нем практически нет. Так что есть над чем работать.

Андрей Васильев считает, что создание такого центра позволит развить в Латвии новое направлениеа— экспорт технологий: "До сих пор латвийские ИТ-компании, ориентированные на экспорт, в основном работали по схеме аутсорсинга: специалисты писали какую-то часть программы для зарубежного заказчика и фактически использовались как дешевая рабочая сила. Но эта схема себя исчерпалаа— пользоваться услугами китайских и индийских программистов гораздо дешевле. Проект Valodu krasts позволит экспортировать технологии, которые будут инсталлированы в продукты мировых ИТ-компаний. Не так важно, что латвийские разработки будут идти к конечному пользователю не под латвийским, а под другим брендом. Нам это позволяет концентрировать свои усилия на том, что у нас лучше получается: разрабатывать системы. А вопросы, связанные с маркетингом и продвижением продуктов, будет решать партнер".

ЧТО БЫ ЭТО ЗНАЧИЛО?

Примеры работы нескольких доступных автоматических переводчиков.

"We are very proud to be the first operator in the world to offer our customers 4G services. The use of mobile broadband in the Nordic countries is exploding and customers need higher speeds and capacity. This is why we launch 4G services in both Stockholm and Oslo", — says Kenneth Karlberg, President and Head of Mobility Services.

"Мы очень горды, чтобы быть первым оператором в мире, чтобы предложить наши клиенты 4G услуг. Использование автофургона, широкополосного в Северных странах, взрывается и клиентам нужны высшие скорости и вместимость. Вот почему мы начинаем 4G услуг как Стокгольм, так и Осло", — сообщает Кеннет Karlberg, Президент и Глава Услуг Подвижности.

(Перевод translate.meta.ua)

"Мы очень горды быть первым оператором в мире, который предложит наши услуги 4 г клиентов. Использование мобильной широкополосной сети в скандинавских странах взрывается, и клиенты нуждаются в более высоких скоростях и способности. Это — то, почему мы начинаем 4-граммовые услуги и в Стокгольме и в Осло", — говорит Кеннет Карлберг, президент и Глава Услуг Подвижности.

(Перевод www.translate.ru, программа PROMT)

"Мы очень гордимся тем, что первым оператором в мире, которая предлагает нашим клиентам услуги 4G. Использования мобильной широкополосной связи в скандинавских странах взрыва и клиентам необходима высокая скорость и мощность. Именно поэтому мы начали 4G услуги в Стокгольме и Осло", — говорит Кеннет Карлберг, президент и глава подразделения мобильных услуг.

(Перевод translate.google.ru )

"Мы очень гордимся возможностью быть первым оператором в мире предлагать нашим клиентам услуги 4 G. Взрывов использования Мобильный широкополосный доступ в северных странах и клиенты нуждаются в более высокой скорости и мощности. Именно поэтому мы запускаем 4 G услуг в Стокгольме и Осло", — говорит Кеннет Карлберг, президент и глава мобильности услуг.

(Перевод www.microsofttranslator.com )

"Mums ir ļoti gandarīts par pirmā operatora pasaules piedāvāt mūsu klientiem. G pakalpojumus. izmantot mobilās platjoslas ziemeļvalstu valstīm ir sprāgšana un klientiem ir lielāku ātrumu un jaudu. Tas ir iemesls, kādēļ mēs palaist G pakalpojumus gan Stokholmas un Oslo", — saka Kenets Karlberg, prezidents un misijas mobilitātes pakalpojumi.

(Перевод translate.tilde.com )

Теперь у нас есть Телеграм-канал Rus.Delfi.lv с самыми свежими новостями Латвии. Подписывайтесь и будьте всегда в курсе!
Опубликованные материалы и любая их часть охраняются авторским правом в соответствии с Законом об авторском праве, и их использование без согласия издателя запрещено. Более подробная информация здесь.

Comment Form