Зачастую при анализе текстовых файлов необходимо удалить пунктуацию из всего массива ячеек, чтобы оставить лишь значимую часть текста — слова.

Обычная последовательная замена каждого из пунктуационных символов в диапазоне займет много времени, при этом гарантии того, что глаза заметят всю пунктуацию в диапазоне — не будет. Особенно, если текст богат ей и его объем составляет тысячи строк.

Помимо всего этого, чтобы удалить символ звездочки или удалить вопросительный знак в ячейках, нужно делать замену с подстановкой знака ~ (тильда) перед этими символами, чтобы экранировать их, т.к. они являются служебными символами, упрощающими работу с синтаксисом замены в Excel.

Все это муторно, сложно и требует много времени. Есть ли способы удалить пунктуацию побыстрее? Ответ — да, есть!

Удалить пунктуацию с помощью регулярных выражений

Поскольку слова в русскоязычных текстах, как правило, состоят только из символов кириллицы, латиницы и цифр — наиболее простым способом быстро оставить их — применить синтаксис регулярных выражений.

Такой подход и использован в надстройке !SEMTools — макрос удаления символов использует исключающее выражение, заменяя на пустоту любые символы, которые не входят в список разрешенных — кириллицу, латиницу, цифры и символы украинского алфавита, отсутствующие в русском.

Макрос удалит абсолютно все пунктуационные символы — будь то точки, запятые, точки с запятой, двоеточия, троеточия, знаки вопроса или восклицательные и т.д.

Алгоритм работы с макросом прост и показан ниже на анимации:
— Выделяем столбец с исходными фразами
— Находим макрос в меню «УДАЛИТЬ» -> Символы -> пунктуацию
— Готово!