Дивився на site.ua у переліку «Вибір редакції», хто пише українською. Дуже мало таких. І ось там натрапив на Олексія Ігнатенка з його статтєю:
Олексій Ігнатенко
Про словниковий запас деяких окремих топ-авторів :)
Один з сучасних підходів до аналізу текстів полягає у візуалізації вживаних слів у вигляді хмари. Це один з методів NLP.
NLP – Natural language processing (найновіша область Data Science яка наразі бурхливо розвивається) а зовсім не нейролінгвістичне програмування як Ви могли подумати.
Хмара слів утворюється наступним чином:
Проблеми застосування алгоритму:
( Дивитися результати: )
Олексій Ігнатенко
Про словниковий запас деяких окремих топ-авторів :)
Один з сучасних підходів до аналізу текстів полягає у візуалізації вживаних слів у вигляді хмари. Це один з методів NLP.
NLP – Natural language processing (найновіша область Data Science яка наразі бурхливо розвивається) а зовсім не нейролінгвістичне програмування як Ви могли подумати.
Хмара слів утворюється наступним чином:
- Тексти витягуються у масив
- Виділяються окремі слова і їх частоти
- Викидуються знаки пунктуації, числа, з’єднувальні слова
- Результат візуалізується у вигляді хмари, де розмір і колір слів залежить від їх частоти вживання
Проблеми застосування алгоритму:
- Стандартний алгоритм розрахований на англійську мову, тому він не чутливий до особливостей російської і української мов (наука, науки, наукою – різні слова для нього)
- Якщо статті автора писались українською і російською це спотворює роботу алгоритму, тому що знижуються частоти слів, які по різному пишуться.
- Результат залежить від списку стоп-слів, тобто слів, які ми вважаємо неінформативними (наприклад “это” або “который” майже у всі авторів було на перших позиціях).
( Дивитися результати: )