ukurainajin | 2018-04-23

Дивився на site.ua у переліку «Вибір редакції», хто пише українською. Дуже мало таких. І ось там натрапив на Олексія Ігнатенка з його статтєю:

Олексій Ігнатенко
Про словниковий запас деяких окремих топ-авторів :)

Один з сучасних підходів до аналізу текстів полягає у візуалізації вживаних слів у вигляді хмари. Це один з методів NLP.

NLP – Natural language processing (найновіша область Data Science яка наразі бурхливо розвивається) а зовсім не нейролінгвістичне програмування як Ви могли подумати.

Хмара слів утворюється наступним чином:

Тексти витягуються у масив
Виділяються окремі слова і їх частоти
Викидуються знаки пунктуації, числа, з’єднувальні слова
Результат візуалізується у вигляді хмари, де розмір і колір слів залежить від їх частоти вживання

Для отримання хмари використовувалась мова R та пакети tm, SnowballC, wordcloud.

Проблеми застосування алгоритму:

Стандартний алгоритм розрахований на англійську мову, тому він не чутливий до особливостей російської і української мов (наука, науки, наукою – різні слова для нього)
Якщо статті автора писались українською і російською це спотворює роботу алгоритму, тому що знижуються частоти слів, які по різному пишуться.
Результат залежить від списку стоп-слів, тобто слів, які ми вважаємо неінформативними (наприклад “это” або “который” майже у всі авторів було на перших позиціях).

Однак, тим не менше, результат може дещо сказати про минулий рік і тексти автора. Алгоритм працює для будь-якого автора, але для ілюстративних цілей були вибрані топ-автори, яких я знаю особисто або регулярно читаю, і Шрайк.
( Дивитися результати: )

Нд	Пн	Вт	Ср	Чт	Пт	Сб
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Нд

Пн

Вт

Ср

Чт

Пт

Сб

Boku ni mo yoku wakarimasen

2018-04-23

2018-04-23

«Про словниковий запас деяких окремих топ-авторів :)» (by Олексій Ігнатенко)

Хто це

Червень 2025

Тематичний перегляд

На цій сторінці