Мәтіндік деректерді талдау кезінде жиі әр жолда қайталанатын сөздерді жою қажет. Кейде сөздер машина қателерінен қайталанады. Кейде адамдар қайталауға рұқсат береді. Бірақ қалай болғанда да, оларды алып тастау керек.
Бүкіл бағандағы қайталанатын сөздерді алып тастаңыз
Тізім алдын ала белгілі болмаса, оны мәтіндегі ең көп қайталанатын сөздерді санау арқылы құрастыруға болады. Егер бұл қысқа сөздер болса, оларды жай ғана бос сөзбен ауыстыру арқылы деректерді бұзу қаупі бар. Бұл мәселе «Тізімнен сөздерді жою» макросы арқылы шешіледі.
Біріншіден басқа бағандағы барлық қайталауларды жою қажет болса, сіз SEO және PPC тобында құралды пайдалана аласыз:
Ұяшық ішіндегі қайталанатын сөздерді жою
Сөздердің қайталануын жоймас бұрын, олардың негізінен бар екеніне көз жеткізуге болады, ол үшін !SEMTools жеке құралы бар – ұяшықтардан қайталанатын сөздерді табыңыз. Егер сөз тіркестерінің массиві үлкен болса (оннан жүздеген мың жолға дейін), бұл процедура айтарлықтай жылдамырақ болады.
Стандартты Excel функциялары мен процедураларында ұяшықтардағы қайталанатын сөздерді жоюдың ешқандай жолы жоқ. Психикалық тұрғыдан алгоритм өте қарапайым және түсінікті – сізге қажет:
- ұяшықты сөздерге бөлу,
- оларды ретімен қараңыз,
- сөздер бұрын жолда болған болса, оларды жойыңыз.
Жолдардағы сөздердің қайталануын жоюға мүмкіндік беретін бірнеше онлайн құралдар бар, бірақ мүмкіндік сіздің қолыңызда болса ше? !SEMTools қондырмасы дәл осылай қамтамасыз етеді.
Қосымшаның көмегімен ұяшықтардағы сөздердің қайталануын 2 рет басу арқылы жоюға болады. Процедура регистрге қарамастан қайталанатын сөздерді жояды. Макрос «Сөздерді жою» мәзіріндегі «ЖОЮ» қойындысында орналасқан. Төменде көрнекі нұсқаулық берілген:

Сөз формаларына негізделген қайталанатын сөздерді алып тастаңыз
Кейде қайталауды тек толық сәйкес келетін сөздерді ғана емес, сонымен қатар сол сөздердің басқа формаларын да қарастыруға болады. Мұндай алып тастау үшін сөздердің леммаларын салыстыру үшін олардың лемматизациясы қажет. Процедура іске қосылған кезде леммалар сөздігі жүктеледі және ол сөздердің қайталануын олардың сөз формаларына қарамастан жою үшін қолданылады. Леммасы бірдей сөздердің ішінен ұяшықта реті бойынша бірінші келетін сөз қалады.
Макрос сонымен қатар регистрді ескермей жұмыс істейді – жалпы мағына сөздің ондағы таңбалардың регистріне қарамастан сөз болып қалуын талап етеді. Дегенмен, регистрді ескере отырып іздеу және жою қажет жағдайлар болса, авторға хабарласуға болады.

Ауқымдағы қайталанатын сөздерді жойыңыз, бірегей сөздерді жинаңыз, санаңыз және тізімдеңіз
Кейде, мысалы, мәтінді семантикалық талдауда сөздердің қайталануын жою әрбір ұяшықта емес, ұяшықтардың барлық ауқымында орындалуы керек. Бірегей сөздерді бөлектеумен қатар, мәтіндегі бірегей сөздердің санын есептеу қызықты болуы мүмкін. Мұнда сізге n-грамдық жиілік сөздігін құрастыру бөлімі көмектеседі.
Осы процедуралардың барлығын орындамас бұрын Excel ұяшықтарынан тыныс белгілерінің барлығын алып тастау ұсынылады, себебі. Excel бағдарламасына арналған тыныс белгісі бар сөз басқа сөз.