Возможности !SEMTools
меню обнаружить фразы в !SEMTools
Меню “обнаружить фразы” на вкладке !SEMTools

Иногда поиск слов в ячейке не отвечает на все вопросы, так как слово само по себе не всегда несет однозначный смысл.

Например, слова “минеральные” и “воды” по отдельности могут встречаться в контексте, не связанном с названием города: “минеральные источники”, “минеральные соли”, “минеральные плиты”, “купи воды”, “отключение воды”, “температура воды”, “счетчик воды” и т.д.

Однако, когда два этих слова идут строго друг за другом:
“минеральные воды”,
“минеральных водах”,
“минеральных вод”,
“минеральных водах”,
“минеральным водам”
— мы знаем, что речь о городе Минеральные Воды.

То же касается и множества других видов омонимии.
Например, “то” может быть местоимением, союзом, частицей и существительным-аббревиатурой “техническое обслуживание”.
В таких случаях только соседние слова могут дать понимание, какой смысл несет слово в контексте:
нулевое ТО
то как зверь она завоет, то заплачет…
я за то люблю Ивана…

Ровно для таких характерных случаев и были предусмотрены макросы !SEMTools по поиску, извлечению и удалению фраз в ячейках. Ниже примеры использования поиска по встроенному списку топонимов и произвольно задаваемому списку фраз.

Как найти в тексте топонимы

На первом этапе обработки семантического ядра может быть полезно обнаружить города в ячейках — в каких ячейках есть их названия, а в каких их нет. Уже после этого можно будет принимать дальнейшие шаги — извлечь города или удалить города из ячеек.

Как обнаружить топонимы в списке фраз в пару кликов

Как найти в тексте свой список фраз

При выполнении данный макрос может искать как фразы, так и слова, поэтому нет проблемы использовать смешанные списки из слов и фраз. Однако если вы уверены, что можно обойтись поиском отдельных слов, предпочтительнее использовать его: на объемах в десятки и сотни тысяч строк разница в скорости обработки будет заметна.

Находим список фраз в диапазоне ячеек

Видеоинструкция по поиску фраз в ячейках

Эта статья также доступна на KZ

2 комментария:

Добрый день. Спасибо за замечательный инструмент.
Проблема в следующем: инструмент не всегда находит/удаляет все топонимы (например, не обнаруживает станции метро Москвы).
Можно ли как-то самостоятельно пополнять список топонимов, к которому обращается инструмент?

Самостоятельно, к сожалению, не получится. Но для самостоятельного поиска и удаления можно всегда использовать процедуры поиска, удаления и замены фраз. Составляете свой собственный список и используете его. Если будет требоваться часто – сохраните где-нибудь в удобном месте на компьютере :)
Проблема с метро Москвы в том, что они часто омонимичны именам собственным. Беговая, университет, тульская, речной вокзал, сокол и т.д. Раньше были в списке топонимов, но потом удалил.

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

*