Features of !SEMTools

Лемматизация – бұл не

Лемматизация – сөздің бастапқы түріне (лемма) айналуы.

Әр түрлі сөйлем мүшелерінің өзіндік леммасы бар, етістіктер үшін – инфинитив, зат есімдер үшін – номинативті дара, сын есімдер үшін – атаулы дара есім.

lemmatizatsiya
Мәтінді лемматизациялау

Лемматизация деген ушин кажет емес пе?

Лемматизация көптеген танымал салаларда қолданылады (тізім толық емес):

  • Іздеу жүйелері пайдаланушының іздеу сұрауын веб-беттердің мазмұнымен байланыстыру үшін лемматизацияны пайдаланады.
  • Веб-шеберлер лемматизацияны олардың қалыпқа келтірілген пішіндерінің біріне сәйкес беттегі барлық сөз пішіндеріндегі барлық сұрауларды анықтау және орналастыру үшін пайдаланады. Семантикалық өзегі лемматизацияланбаса, айқын тіркестермен қатар, басқа да танымал емес сөз формаларындағы сөз тіркестерін есепке алмау қаупі бар.
  • Әлеуметтанушылар маңызды саясаткерлердің сөйлеген сөздерінің стенограммаларын (мысалы, президенттің федералдық жиналысқа жолдауы) мәтіннің реңкін және бірегей маңызды терминдердің жоғары сапалы кездесуін есептеу үшін лемматизациялайды.
  • Іздеу сұрауының статистикалық құралдары (мысалы, Wordstat) пайдаланушының іздеу сұрауларын лемматизацияланған сөздер бойынша топтастырады, осылайша кілт сөздерді әзірлеу кезінде жарнама беруші өз бизнесі үшін маңызды кілт сөздерді жіберіп алмайды.
  • PPC мамандары мәтіндегі ең көп таралған ұғымдарды жылдам талдау және сәйкес бастапқы беттерді таңдау үшін оның жиілік сөздігін құрастырмас бұрын семантикалық ядроны лемматизациялайды.

Морфологиялық кітапханалар

Лемматизациядан басқа, морфологиялық кітапханалар сөз формаларымен басқа операцияларды орындауға мүмкіндік береді:

  • Сөздің барлық түрлерін алу
  • Сөзге грамматикалық ақпарат алу (сөйлем бөлігі, регистр, конъюгация т.б.)
  • Берілген грамматикалық белгілерге сәйкес сөздің формасын өзгерту

PhpMorphy

phpMorphy – php жүйесінде енгізілген морфологиялық талдау кітапханасы

PyMorphy2

pymorphy2 – Python тіліне ұқсас кітапхана. Жоба үнемі жаңартылып отыратын ашық корпус пен OpenCorpora сөздік қорын пайдаланады.

MyStem

Mystem бірінші нұсқасы 1996 жылы Яндекс негізін қалаушылардың бірі Илья Сегаловичтің белсенді қатысуымен жасалды. Лемматизация алгоритмі іздеу жүйесінде іске асырылды және Яндекстің коммерциялық табысының негізгі факторларының бірі болды. Жоба дамуын жалғастыруда, бірнеше тілге арналған нұсқалары және Windows үшін консольдік утилитасы бар.

!SEMTools утилитаны тікелей Excel бағдарламасында пайдалануға мүмкіндік береді:

mystem-lemmatization
mystem.exe EXE файлын және !SEMTools Excel қондырмасын пайдаланып консольді пайдалану қажеттілігін Excel бағдарламасында лемматизациялау

Excel бағдарламасында лемматизация

Бағдарламалау туралы білімі жоқ қарапайым маркетолог үшін консольдік утилиталарды және сонымен қатар бағдарламалау тілдерін пайдалану тікелей міндет және күнделікті жұмыс процесінің бөлігі емес, ынтамен қолдау көрсететін хобби болып табылады.

Дегенмен, мұнымен қатар лемматизация семантикалық ядроға қатысты көптеген процестерде – оны кластерлеуде, жиілік сөздігін құрастыруда, n-граммалық талдауда, жасырын көшірмелерді жоюда және т.б.

Сондықтан мен бұл мәселені шешетін және оны бағдарламалау дағдылары жоқ адамдарға қолжетімді ететін құрал жасауды шештім.

Осылайша, !SEMTools қосымшасындағы лемматизатор құралы дүниеге келді. Оның көмегімен сіз бірнеше рет басу арқылы кез келген өлшемдегі семантикалық ядроны лемматизациялай аласыз.

image-1024x394
SEO / контекстік жарнамадағы іздеу сұрауларын лемматизациялау мысалы

Лемматизация үшін !SEMTools танымал сөз-лемма жұптарының дайын сөздігін пайдаланады. Сөздікті мен құрастырдым және үнемі жаңа жұптармен толықтырылып отырады. Ол өте ауыр болғандықтан (10 МБ), ол қондырманың өзіне енгізілмеген, бірақ процесс басталған кезде, егер ол жергілікті түрде әлі ашылмаған болса, осы сайттан жүктеледі.

lemmatize-1
Excel бағдарламасында !SEMTools көмегімен лемматизация

Файлды іске қосқан сайын жүктеп алғыңыз келмесе, лемматизация процедурасын бастамас бұрын оны компьютеріңізге сақтап, алдын ала ашыңыз. Макрос сөздіктің ашық екеніне көз жеткізеді және сайтқа кірмейді. Осылайша сіз лемматизация функцияларын офлайн режимінде пайдалана аласыз және Интернеттің жоқтығына алаңдамайсыз.

Функция өте жылдам, секундына ондаған мың мәтін жолдарын өңдейді. Бұл тіпті ең қуатты емес компьютерлерде де үлкен семантикалық ядроларды алаңдатпауға және өңдеуге мүмкіндік береді.

Бірақ кішігірім шектеулер де бар – сөздер кіші әріппен жазылғанда ғана олардың леммаларына қысқарады, сондықтан алдымен олардың регистрін өзгерту ұсынылады. Тыныс белгілері де ескерілмейді және сөздердің бір бөлігі ретінде қарастырылады. Сондықтан лемматизациядан бұрын әріптерден басқа барлық таңбаларды алып тастау керек.

Егер леммалар сөздігі жүктелмеген болса

Кейде қондырманың кейбір пайдаланушылары макросты іске қосу кезінде қателіктерге тап болады, себебі леммалар сөздігі автоматты түрде жүктелмейді.

Мұндай жағдайларда оны өзіңіз жүктеп алу ұсынылады (атын өзгертпей), файлды фондық режимде параллельді түрде ашыңыз, содан кейін ғана лемматизация процедурасын орындаңыз.

Сөздікті жүктеп алу: http://semtools.guru/dl/ru/lemms.xlsb

Лемматизациямен тығыз байланысты тоқтау сөздерді алып тастау және жасырын көшірмелерді жою үшін ұяшық ішінде сөздерді алфавиттік ретпен орналастыру. Жоғарыда келтірілген мысалда 4 сөз тіркесінің барлығының мәні жағынан бірдей екендігін, айырмашылық тек сөз формаларында, сөз тәртібінде және сөз тіркестерінің жартысында «in» көсемшесінің болуын байқауға болады. Бұл процедуралардың барлығын Excel бағдарламасында менің қондырмасым арқылы орындауға болады.