Анализ неявных дублей

Под неявными дублями понимаются ячейки, которые обычная процедура сравнения ячеек не определяет как равные, но с точки зрения человека они являются одинаковыми.
Чаще всего эта проблема касается текстовых данных. Незначимые для человека, но значимые для компьютера различия:

  • Порядок слов в ячейке
  • лишние пробелы и другая пунктуация
  • Эквивалентный символ в другой раскладке
  • Различие окончаний слов в разных словоформах
  • В некоторых случаях — стоп-слова

Для каждого типа различий есть и способ устранить их:

После устранения всех различий можно выявить дубликаты внутри столбца и проанализировать, какие фразы неявно дублируют друг друга. Получится три столбца — исходные фразы, нормализованные фразы и статусы их дублирования.

Также можно обойтись двумя столбцами, если после нормализации воспользоваться макросом «извлечь ячейки» — «по повторяемости» — «повторяющиеся».

Удалить неявные дубли в 1 клик

Как удалить дубликаты, в которых слова поменяли местами? Инструмент доступен в меню !SEMTools «УДАЛИТЬ» — «Ячейки» — «Дубли внутри диапазона». Ниже наглядная демонстрация работы. Макрос работает аналогично обычному удалению дубликатов без смещения — просто очищает содержимое ячейки, если в ней обнаружен неявный дубль одной из ячеек выше.

удалить неявные дубли с другим порядком слов
Удаление неявных дублей в Excel

Удаление неявных дублей с учетом словоформ

В контекстной рекламе и SEO при проработке семантического ядра бывает важно избавиться в том числе от дублей, в которых различия не только в порядке слов, но и в словоформах. В примере выше видно, что дубликаты такого типа там не удаляются.

Для решения проблемы может помочь такой процесс, как лемматизация. Чтобы не пришлось создавать дополнительный столбец, над которым производить процесс лемматизации, в меню удаления дублей также был добавлен пункт удаления дубликатов слов и фраз вместе с ней. При этом исходные фразы не меняются — лемматизация происходит в фоновом режиме и используется только для сравнения фраз.

удаление неявных дублей с разными словоформами
Удаляем неявные дубли, не учитывая разницу словоформ