2018-04-23

ukurainajin: (Default)
Дивився на site.ua у переліку «Вибір редакції», хто пише українською. Дуже мало таких. І ось там натрапив на Олексія Ігнатенка з його статтєю:

Олексій Ігнатенко
Про словниковий запас деяких окремих топ-авторів :)

Один з сучасних підходів до аналізу текстів полягає у візуалізації вживаних слів у вигляді хмари. Це один з методів NLP.

NLP – Natural language processing (найновіша область Data Science яка наразі бурхливо розвивається) а зовсім не нейролінгвістичне програмування як Ви могли подумати.

Хмара слів утворюється наступним чином:
  • Тексти витягуються у масив
  • Виділяються окремі слова і їх частоти
  • Викидуються знаки пунктуації, числа, з’єднувальні слова
  • Результат візуалізується у вигляді хмари, де розмір і колір слів залежить від їх частоти вживання
Для отримання хмари використовувалась мова R та пакети tm, SnowballC, wordcloud.

Проблеми застосування алгоритму:
  1. Стандартний алгоритм розрахований на англійську мову, тому він не чутливий до особливостей російської і української мов (наука, науки, наукою – різні слова для нього)
  2. Якщо статті автора писались українською і російською це спотворює роботу алгоритму, тому що знижуються частоти слів, які по різному пишуться.
  3. Результат залежить від списку стоп-слів, тобто слів, які ми вважаємо неінформативними (наприклад “это” або “который” майже у всі авторів було на перших позиціях).
Однак, тим не менше, результат може дещо сказати про минулий рік і тексти автора. Алгоритм працює для будь-якого автора, але для ілюстративних цілей були вибрані топ-автори, яких я знаю особисто або регулярно читаю, і Шрайк.
Дивитися результати: )

Хто це

ukurainajin: (Default)
ukurainajin

Червень 2025

Нд Пн Вт Ср Чт Пт Сб
123 456 7
89101112 1314
15161718192021
22232425262728
2930     

Тематичний перегляд