Стоп-слова — друзья или враги

С этим докладом я выступил на SEMConf 2018. Ниже транскрипт записи моего доклада.
Обновленный файл презентации: Стоп-слова — друзья или враги

«Стоп-слова — служебные части речи и местоимения, а также любые слова, не несущие дополнительного смысла, которые автоматически исключаются из запроса пользователя при отборе объявлений для показа».

Справка Яндекс.Директа

Главное отличие стоп-слов в том, что они детерминированы, а минус-словом может быть любое слово

Основное в определении стоп-слов — то, что это слова, не несущие смысла. Однако это понятие относительное. Есть «неоднозначные» стоп-слова, например, «то» (техобслуживание), «тех» (тех характеристики = технические характеристики), «тем» (много интересных тем). И зачастую стоп-слова кардинально меняют смысл фраз. Именно это и есть главная мысль этого материала.

Точный список стоп-слов Яндекс.Директа неизвестен и иногда меняется.

Как определить стоп-слова?

Я знаю четыре способа:

  1. Через заведение группы в интерфейсе: слова без стоп-слова и со стоп-словом «схлопываются», остается только слово без стоп-слова.
  2. Через кросс-минусовку и удаление дублей в Коммандере.
  3. Через Прогноз бюджета в интерфейсе: если при запросе частотности система ругается «Ключевая фраза не может состоять только из стоп-слов: союзов, предлогов, частиц». Причем, в отличие от Вордстата, не дает это сделать даже с применением операторов.
  4. Через Wordstat Яндекса: если отдает 0 показов по слову:

Удивительное в том, что эти варианты отдают разные данные, есть небольшой рассинхрон. Я взял за истину прогноз бюджета. На текущий момент мной найдены 295 имеющих смысл слов.

Все их можно вывести в ячейку в Excel, вбив функцию stopwords. У функции нет аргументов, ее задача просто вывести все стоп-слова. Работать будет только если у вас установлена надстройка.

Для Google Ads список стоп-слов может быть шире: каких-то ограничений на это в Ads нет необходимости устанавливать. Фактически Ads может посчитать стоп-словом любое слово, перед которым вы не поставите модификатор широкого соответствия — выбор стоп-слов за вами.

Использование операторов соответствия при работе со стоп-словами

Работа со стоп-словами подразумевает проставление либо удаление модификаторов перед ними.

Удалять модификаторы может быть нужно в нескольких случаях:

  1. Запрос в Директе состоит из семи слов без стоп-слов, с модификаторами — система не пропустит.
  2. Есть риск потерять охват из-за того, что пользователи могут не употреблять стоп-слова в запросе, а эквивалентных фраз без стоп-слов нет.
  3. Стоп-слова добавлены умышленно, для приукрашивания шаблонных заголовков.

Проставлять модификаторы нужно во всех обратных случаях.

Поскольку подход к стоп-словам в Директе и Ads различный, я сделал в своей надстройке два списка стоп-слов: общий и только для Директа. Каждый из списков можно использовать в макросах: удалить стоп слова, удалить операторы перед ними, проставить операторы «!» или «+». Выбор операторов обусловлен тем, что некоторые стоп-слова склоняются, например, весь, все, всех, всем и т. д.

Стоп-слова как маркер интента

Стоп-слова можно классифицировать по интенту. Этот лайфхак я обнаружил довольно давно и пользовался им при проработке минус-слов. Он заключается в том, что стоп-слова в сочетании с продвигаемой сущностью (услуга или товар) могут характеризовать запрос пользователя как релевантный или нерелевантный. На пути пользователя (customer journey map) основополагающий параметр, влияющий на взаимодействие с продуктом/услугой — временной промежуток. Утрируя, это до и после. Также пользователь может сомневаться и искать альтернативы — это происходит во время основного поиска.

Исходя из этого, я промаркировал стоп-слова по интенту, чтобы на их основе вычислять нерелевантные запросы.

До приобретения услуги / покупки товара

Сюда входит много запросов, связанных с людскими страхами, сомнениями и стремлением их развеять путем обращения к поиску. Это — «теплая» аудитория, как правило, она не отличается высокой конверсией, но при умелой работе может приносить прибыль, так как зачастую с ней предпочитают не возиться и оставляют на потом ваши конкуренты.

Слова-маркеры:

  • перед
  • какой/какая/какие… + сущность
  • вред
  • последствия
  • если
  • о/об + услуга/товар
  • при + услуга в сфере услуг
  • ли (больно ли, вредно ли, стоит ли, нужно ли, можно ли, возможно ли, хорошо ли, правда ли…)
  • и, разумеется, до + услуга — в сфере услуг

После приобретения услуги / покупки товара

Сюда относятся поисковые запросы, обозначающие возникающие у пользователя проблемы уже после покупки товара или услуги. Это могут быть какие-либо дефекты товара или последствия некачественно оказанной услуги, необходимость замены, возврата, ремонта товара или поиск консультационного материала (что делать и как действовать в новых реалиях).

Основные маркеры:

  • для + сущность
  • под/подо + сущность
  • на + сущность (кроме маркеров покупки: цена на товар, скидки на товар)
  • в/во + сущность
  • к/ко + сущность
  • от + сущность
  • сущность + не
  • сущность + глагол (кроме глаголов-маркеров покупки)
  • как (в товарной семантике, кроме фраз с маркерами покупки)
  • после + сущность — в сфере услуг

Вместо услуги/товара

Здесь все просто: пользователь или вовсе не наш потенциальный клиент, или вероятность этого около 100%. Он ищет альтернативу нашему продукту, причем необязательно платную. Видов подобных интересов и деятельности много, портреты пользователя могут быть совершенно разные:

  1. Студент или специалист. Ищет статьи, рефераты, курсовые, курсы, образовательные заведения и т. д.
  2. DIY-энтузиаст. Ищет руководства и инструкции, пытается все сделать своими руками.
  3. Любитель порно.
  4. Искатель смысла. Интересуется сонниками, гороскопами, приметами, молитвами, гаданиями, приворотами и т. д.
  5. Геймер.
  6. Заядлый онлайнер. Его поведение перекликается с некоторыми вышеупомянутыми. Ищет анекдоты, приколы, видяхи, дровишки, софт, обои для рабочего стола и прочие похожие сущности. Эти слова не относятся к стоп-словам, но без их использования проработка нецелевой семантики была бы менее эффективной.

Из стоп-слов, характерных для подобного портрета:

  • без + сущность
  • вместо + сущность
  • зачем + сущность или сущность + зачем
  • почему + сущность или сущность + почему
  • или + сущность или сущность + ли
  • ли + сущность или сущность + ли

И этот список далеко не полный и будет существенно пополняться.

Минус-слова через стоп-слова — подробный алгоритм подбора

Зная интент, который дают фразам стоп-слова, и понимая релевантность самого интента, мы можем автоматизировать сбор нерелевантных слов. Получится такая в своем роде кластеризация фраз по интенту через стоп-слова.

Алгоритм:

  1. Выбираем нерелевантный интент.
  2. Выбираем стоп-слова, характеризующие его.
  3. Анализируем порядок следования стоп-слов и продвигаемой сущности.
  4. Выбираем из семантического ядра все фразы с зафиксированными последовательностями
  5. Удаляем очевидно полезные слова: маркеры покупки, эпитеты, геомаркеры, стоп-слова.
  6. Profit! Но лучше пройтись по списку глазками, прежде чем добавлять в минус-слова на уровне РК.

Как воспользоваться макросом

Найти макрос можно на панели моей надстройки в разделе SEM & SEO, в меню «семантический анализ». Нужно выделить диапазон, содержащий в себе поисковые запросы, и нажать «поиск нерелевантных слов«.

Неочевидные сложности и их решение

  1. Иногда между стоп-словом и продвигаемой сущностью может быть другое слово (например, эпитет). Это снизит количество найденных минус-слов, и лучше удалять прилагательные перед запуском скрипта.
  2. Услуга может использоваться в запросе в любом склонении, поэтому нужна либо морфология, либо использование услуги во всех склонениях. Немного пожертвовав юзабилити и упростив разработку, я выбрал второй вариант. Однако в скором времени будет достаточно ввести одно слово, т.к. склонение по падежам в !SEMTools уже доступно.

Полное видео доклада про стоп-слова

Дмитрий Тумайкин

Автор и создатель сайта semtools.guru и надстройки !SEMTools

Добавить комментарий