С помощью надстройки !SEMTools легко в пару кликов произвести лемматизацию семантического ядра. Если кратко, лемматизация — это перевод любого падежа в именительный. Более подробно — что такое лемматизация.

Для лемматизации в !SEMTools используется готовый словарь популярных пар слово-лемма. Словарь составлен автором и регулярно пополняется новыми парами. Поскольку словарь довольно увесистый (12 Мб), он не вшит в саму надстройку, а скачивается с официального сайта (semtools.guru) при запуске процесса, если уже не открыт.

Если не хотите скачивать файл каждый раз при запуске — сохраните его на компьютере и открывайте заранее перед запуском лемматизации. Макрос убедится, что словарь открыт, и не будет обращаться на сайт. Так можно использовать функции лемматизации в дороге и не беспокоиться об отсутствии интернета.

Функция работает очень быстро, обрабатывая десятки тысяч строк текста в секунду. Это позволяет не беспокоиться и обрабатывать огромные семантические ядра даже на не самых мощных лаптопах.

Но есть и небольшие ограничения — слова приводятся к их леммам только будучи в нижнем регистре, поэтому рекомендуется предварительно изменить их регистр. Пунктуация тоже не игнорируется и рассматривается как часть слов. Поэтому нужно также удалить все знаки препинания.

Лемматизация в Excel при помощи !SEMTools
Закрыть меню