21.10.2020
«Антиплагиат» разработал модуль для обнаружения переводных заимствований в текстах на 100 языках
20.10.2020
Компания «Антиплагиат» разработала и запустила тестирование специализированного модуля для обнаружения переводных заимствований в текстах на ста самых распространенных языках мира. В декабре 2019 года проект компании по пан-языковому анализу текстов на естественных языках стал победителем конкурсного отбора компаний-лидеров в рамках национальной программы «Цифровая экономика РФ», оператором которого выступила РВК.
В последние годы системы машинного перевода вышли на новый уровень и стали постоянным помощником ученых и студентов. Вместе с тем, серьезно выросло количество попыток выдать переводной текст за оригинальный. Такие попытки не ограничиваются очевидным направлением перевода с английского на национальный. Регулярно обнаруживаются переводы с русского на национальные языки стран СНГ. Кроме того, «донорами» могу выступать и другие языки: китайский, немецкий, французский и т.д.
Стратегическая цель разработки «Антиплагиат» — сделать так, чтобы система обнаруживала заимствования вне зависимости от того, с какого на какой язык был осуществлен перевод, а также от того, сделан он человеком или выполнен машинным переводчиком. При том, что в мире ведется достаточно много исследований в этой области, большей частью они не ориентированы на получение решений, способных работать в условиях высоких нагрузок, то есть обрабатывать сотни документов в минуту, при сопоставлении их с многомиллионными коллекциями потенциальных источников.
«Мы подошли к завершению исследования новейших технологий мультиязычной векторизации текстовых фрагментов. Современные алгоритмы машинного обучения позволят сравнивать смысловое содержание текстов на ста языках без промежуточного этапа перевода. В частности, это семейство подходов на основе BERT — наиболее обсуждаемая сейчас в NLP-сообществе тема. Исследовательская группа нашей компании начала активно следить за разработками в этом направлении с 2017 года, что позволило разработать модуль сравнения текстов на ста языках и запустить активную фазу его испытаний уже сейчас», — прокомментировал Юрий Чехович, исполнительный директор «Антиплагиат».
Испытания новой функциональности будут проводиться в том числе и в промышленном окружении на реальных документах реальных пользователей в конце 2020 и в 2021 году. На первом этапе алгоритмы настроены на максимизацию точности, чтобы не доставлять неудобства пользователям ложноположительными сигналами. Затем настройки алгоритмов будут финализированы уже с учетом результатов тестирования. Такой подход позволит постепенно расширять полноту поиска, сохраняя при этом высокий уровень точности обнаружения заимствований.