Возможности !SEMTools

Извлечь из текста список слов

В работе с большими текстовыми массивами бывает необходимость найти в столбце слова из списка. Но не просто найти, а, если ячейка содержит слова из диапазона, указать сами эти слова. Если список слов невелик, эту задачу можно сделать с помощью расширенного фильтра, но если нет, задача превращается в трудновыполнимую. Особенно, если исходный текстовый массив содержит сотни-тысячи строк. Основные проблемы:

  • Слова нельзя искать по обычному вхождению — короткие слова могут быть частью других слов. Например, «эко» входит в «эконом», а «эконом» — в «экономичный».
  • Если задача состоит в том, чтобы найти все слова из списка, а не первое попавшееся, содержимое ячейки нельзя очищать от лишнего содержимого, пока не будет закончен поиск всех слов и не будут помечены найденные.

Далее подробнее о том, как с помощью надстройки !SEMTools решить эти задачи.

Извлечь слова из указываемого списка

Данный функционал позволяет моментально удалить из текста все слова, кроме тех, что находится в списке который вы ему укажете, таким образом извлекая эти слова. У процедуры есть близкие по смыслу — найти слова из списка и удалить из текста список слов.

Чтобы сохранить исходные данные, нужно скопировать столбец и извлекать слова из него. На примере ниже из более 5000 скопированных ячеек извлекаются несколько сотен слов.

Происходит следующее: если в ячейке имеется слово из диапазона, оно остается, если нет — удаляется. Таким образом, если в строке несколько слов, встречающиеся в диапазоне, останутся они все.

извлечь список слов из текста
Извлечь список слов из массива на примере 130 маркеров семейных отношений в романе «Евгений Онегин».

Для 100% эффективного поиска необходимо удалить все знаки препинания из ячеек. Процедура нечувствительна к регистру. Важно еще раз подчеркнуть — ищутся и извлекаются именно слова, сколь короткими бы они ни были. Если в диапазоне содержатся не только слова, но произвольный текст, нужно использовать похожий, но слегка иной, функционал извлечь словосочетания, т.к. любые двусловные, трехсловные и т.д. фразы в режиме извлечения слов будут пропущены при поиске.

Извлечь слова из готовых списков маркеров

Макросы этой группы позволяют извлекать маркеры аренды, продажи, отзывов, и будут пополняться новыми списками сущностей по мере развития надстройки. Они довольно популярны среди специалистов по SEO и контекстной рекламе. Ниже пример извлечения коммерческих маркеров.

коммерческие маркеры в тексте

Извлечь из ячейки определенные части речи

Иногда бывает полезным извлечь из строк глаголы, прилагательные, существительные или наречия. Во многих тематиках определенная часть речи является ярким паттерном сегмента аудитории, как целевого, так и нет.

найти и извлечь глаголы в ячейках
Удаляем маркеры продажи (купить, заказать…) и извлекаем оставшиеся глаголы с !SEMTools

Извлечь из текущего списка все уникальные слова

Подробно о том, как проанализировать список фраз и собрать уникальные слова из него, я рассказал в другой статье: N-gram анализ в Excel.