Анализ неявных дублей
Под неявными дублями понимаются ячейки, которые обычная процедура сравнения ячеек не определяет как равные, но с точки зрения человека они являются одинаковыми. Чаще всего эта проблема касается текстовых данных. Незначимые для человека, но значимые для компьютера различия:
- Порядок слов в ячейке;
- Лишние пробелы и другая пунктуация;
- Эквивалентный символ в другой раскладке;
- Различие окончаний слов в разных словоформах;
- В некоторых случаях — стоп-слова.
Для каждого типа различий есть и способ устранить их:
- Сортировка внутри ячейки решает проблему с разным порядком слов;
- Удаление всех символов, кроме букв и цифр (и пробелов) устранит и возможные различия в них;
- Для исправления различий словоформ используется лемматизация.
После устранения всех различий можно выявить дубликаты внутри столбца и проанализировать, какие фразы неявно дублируют друг друга. Получится три столбца — исходные фразы, нормализованные фразы и статусы их дублирования.
Также можно обойтись двумя столбцами, если после нормализации воспользоваться макросом «извлечь ячейки» — «по повторяемости» — «повторяющиеся».
Удалить неявные дубли в 1 клик
Как удалить дубликаты, в которых слова поменяли местами? Инструмент доступен в меню !SEMTools «УДАЛИТЬ» — «Ячейки» — «Дубли внутри диапазона». Ниже наглядная демонстрация работы. Макрос работает аналогично обычному удалению дубликатов без смещения — просто очищает содержимое ячейки, если в ней обнаружен неявный дубль одной из ячеек выше.

Удаление неявных дублей с учётом словоформ
В контекстной рекламе и SEO при проработке семантического ядра бывает важно избавиться в том числе от дублей, в которых различия не только в порядке слов, но и в словоформах. В примере выше видно, что дубликаты такого типа там не удаляются.
Для решения проблемы может помочь такой процесс, как лемматизация. Чтобы не пришлось создавать дополнительный столбец, над которым производить процесс лемматизации, в меню удаления дублей также был добавлен пункт удаления дубликатов слов и фраз вместе с ней. При этом исходные фразы не меняются — лемматизация происходит в фоновом режиме и используется только для сравнения фраз.
