Возможности !SEMTools

Анализ неявных дублей

Под неявными дублями понимаются ячейки, которые обычная процедура сравнения ячеек не определяет как равные, но с точки зрения человека они являются одинаковыми. Чаще всего эта проблема касается текстовых данных. Незначимые для человека, но значимые для компьютера различия:

  • Порядок слов в ячейке;
  • Лишние пробелы и другая пунктуация;
  • Эквивалентный символ в другой раскладке;
  • Различие окончаний слов в разных словоформах;
  • В некоторых случаях — стоп-слова.

Для каждого типа различий есть и способ устранить их:

После устранения всех различий можно выявить дубликаты внутри столбца и проанализировать, какие фразы неявно дублируют друг друга. Получится три столбца — исходные фразы, нормализованные фразы и статусы их дублирования.

Также можно обойтись двумя столбцами, если после нормализации воспользоваться макросом «извлечь ячейки» — «по повторяемости» — «повторяющиеся».

Удалить неявные дубли в 1 клик

Как удалить дубликаты, в которых слова поменяли местами? Инструмент доступен в меню !SEMTools «УДАЛИТЬ» — «Ячейки» — «Дубли внутри диапазона». Ниже наглядная демонстрация работы. Макрос работает аналогично обычному удалению дубликатов без смещения — просто очищает содержимое ячейки, если в ней обнаружен неявный дубль одной из ячеек выше.

удалить неявные дубли с другим порядком слов
Удаление неявных дублей в Excel

Удаление неявных дублей с учётом словоформ

В контекстной рекламе и SEO при проработке семантического ядра бывает важно избавиться в том числе от дублей, в которых различия не только в порядке слов, но и в словоформах. В примере выше видно, что дубликаты такого типа там не удаляются.

Для решения проблемы может помочь такой процесс, как лемматизация. Чтобы не пришлось создавать дополнительный столбец, над которым производить процесс лемматизации, в меню удаления дублей также был добавлен пункт удаления дубликатов слов и фраз вместе с ней. При этом исходные фразы не меняются — лемматизация происходит в фоновом режиме и используется только для сравнения фраз.

удаление неявных дублей с разными словоформами
Удаляем неявные дубли, не учитывая разницу словоформ

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

*