Символы латиницы — одни из самых популярных в мире. На них написана большая часть кода, документации и научной информации. Транснациональные корпорации используют английский язык для общения с партнерами и клиентами по всему миру.

Неудивительно, что в кириллическом тексте может быть множество символов латиницы по той или иной причине. Это может быть даже банальная опечатка, если забыли сменить раскладку на клавиатуре.

Если для нас будет достаточно обнаружить символы латиницы в тексте, нам не нужно извлекать ее. В статье по ссылке объяснение, как достаточно просто проверить текст на наличие латиницы. Для каждой ячейки при проверке будет отдаваться Истина или Ложь, в зависимости от ее наличия в ней.

Извлечь латиницу с помощью регулярных выражений

По той или иной причине нам может быть необходимо воочию увидеть символы латиницы, находящиеся в тексте со смешанным содержимым — кириллицей, цифрами, знаками препинания и т.д.. Если нас не интересует, какие символы находятся с ними по соседству, мы можем воспользоваться простым извлечением по регулярному выражению.

Извлечь латиницу в любом регистре — строчные и заглавные

Регулярное выражение для извлечения всей латиницы будет выглядеть так:

[a-zA-Z]

Квадратные скобки указывают на опциональность перечисленных внутри элементов, как оператор «ИЛИ». Дефис между символами определяет верхнюю и нижнюю границу множеств символов, всегда включительно. Переводя на человеческий язык, мы говорим этим регулярным выражением:

«Выбрать из ячейки все символы, если они входят ИЛИ в диапазон между a и z, ИЛИ между A и Z включительно»

Извлечь латиницу в нижнем регистре

Если вы уверены, что массив фраз содержит только латиницу в нижнем регистре, выражение как в примере выше, можно сократить до [a-z]. Если же не уверены, лучше не стоит, т.к. оно пропустит заглавные символы латиницы и извлечет только строчные.

извлечь латиницу в нижнем регистре

Извлечь латиницу с пробелами — регулярное выражение

Выражение [a-z] указывает нам строго извлекать только символы, находящиеся в диапазоне a-z. Если нужно оставить пробелы между символами, содержавшимися в разных словах, внутрь скобок можно добавить пробел: [a-z ]. Нужно учитывать, что это извлечет из строки их все, после чего, возможно, понадобится удалить лишние пробелы.

Извлечь латиницу с пробелами и удалить лишние

Извлечь латиницу в 1 клик в !SEMTools

Чтобы не приходилось запоминать и печатать сложный синтаксис регулярок, в надстройку был добавлен быстрый способ — извлечение латиницы в один клик. Функция оставляет пробелы между символами латиницы, если они были в разных словах, и удаляет лишние.

Вытащить из ячейки символы на английском в 1 клик в !SEMTools

Другие возможности по работе с латиницей в !SEMTools

По примерам выше видно, что слова, содержащие помимо латиницы цифры и дефисы, не остаются в исходном формате. Это логично, потому что выражение и не говорит им это делать. Эту и другие похожие операции тоже можно производить с помощью надстройки:

Добавить комментарий