Главная » КОМПАНИИ » «Антиплагиат» разработал модуль для обнаружения переводных заимствований в текстах на 100 языках
Опубликовано: 21 октября 2020

«Антиплагиат» разработал модуль для обнаружения переводных заимствований в текстах на 100 языках

21.10.2020

«Антиплагиат» разработал модуль для обнаружения переводных заимствований в текстах на 100 языках

20.10.2020

Компания «Антиплагиат» разработала и запустила тестирование специализированного модуля для обнаружения переводных заимствований в текстах на ста самых распространенных языках мира. В декабре 2019 года проект компании по пан-языковому анализу текстов на естественных языках стал победителем конкурсного отбора компаний-лидеров в рамках национальной программы «Цифровая экономика РФ», оператором которого выступила РВК.

В последние годы системы машинного перевода вышли на новый уровень и стали постоянным помощником ученых и студентов. Вместе с тем, серьезно выросло количество попыток выдать переводной текст за оригинальный. Такие попытки не ограничиваются очевидным направлением перевода с английского на национальный. Регулярно обнаруживаются переводы с русского на национальные языки стран СНГ. Кроме того, «донорами» могу выступать и другие языки: китайский, немецкий, французский и т.д.

Стратегическая цель разработки «Антиплагиат» — сделать так, чтобы система обнаруживала заимствования вне зависимости от того, с какого на какой язык был осуществлен перевод, а также от того, сделан он человеком или выполнен машинным переводчиком. При том, что в мире ведется достаточно много исследований в этой области, большей частью они не ориентированы на получение решений, способных работать в условиях высоких нагрузок, то есть обрабатывать сотни документов в минуту, при сопоставлении их с многомиллионными коллекциями потенциальных источников. 

«Мы подошли к завершению исследования новейших технологий мультиязычной векторизации текстовых фрагментов. Современные алгоритмы машинного обучения позволят сравнивать смысловое содержание текстов на ста языках без промежуточного этапа перевода. В частности, это семейство подходов на основе BERT — наиболее обсуждаемая сейчас в NLP-сообществе тема. Исследовательская группа нашей компании начала активно следить за разработками в этом направлении с 2017 года, что позволило разработать модуль сравнения текстов на ста языках и запустить активную фазу его испытаний уже сейчас», — прокомментировал Юрий Чехович, исполнительный директор «Антиплагиат».

Вам будет интересно  Глава IATA не считает закрытие границ долгосрочным решением для борьбы со штаммами COVID

Испытания новой функциональности будут проводиться в том числе и в промышленном окружении на реальных документах реальных пользователей в конце 2020 и в 2021 году. На первом этапе алгоритмы настроены на максимизацию точности, чтобы не доставлять неудобства пользователям ложноположительными сигналами. Затем настройки алгоритмов будут финализированы уже с учетом результатов тестирования. Такой подход позволит постепенно расширять полноту поиска, сохраняя при этом высокий уровень точности обнаружения заимствований.

Источник

Оставить комментарий

Ваш email нигде не будет показан. Обязательные для заполнения поля помечены *

*

Яндекс.Метрика