Strona główna » Analityka danych » Platforma » Pytania otwarte » Kategoryzacja wypowiedzi respondentów » Kategoryzacja automatyczna na bazię ręcznej

Kategoryzacja automatyczna na bazie kategoryzacji ręcznej

Mechanizm opiera się na połączeniu ręcznej oraz automatycznej pracy z danymi. Proces rozpoczyna się od manualnego przypisania kategorii do wypowiedzi respondentów, co pozwala stworzyć tzw. zbiór uczący. Na podstawie tego zbioru, platforma YourCX automatycznie buduje model językowy, który uczy się rozpoznawania zależności między treścią wypowiedzi a przypisaną do niej kategorią.

Przygotowanie modelu językowego do trenowania

W praktyce najpierw należy ręcznie oznaczyć określoną liczbę wypowiedzi klientów, tworząc w ten sposób reprezentatywny zestaw danych treningowych. W kolejnym kroku system wykorzystuje algorytmy uczenia maszynowego do stworzenia modelu kategoryzacji, który analizuje struktury językowe oraz słowa kluczowe charakterystyczne dla każdej kategorii. Warto trzymać się kilku zasad:

  • Przykłady wypowiedzi dla poszczególnych kategorii powinny być zróźnicowane
  • Kategorie powinny być znaczeniowo rozdzielne tak, aby algorytmy nie miały wątpliwości, do której kategorii dana wypowiedź należy. W przeciwnym wypadku algorytm będzie mógł przydzielać 2 albo i więcej kategorii do wypowiedzi
  • Zbiory uczące dla każdej kategorii powinny być w miarę zbliżone ilościowo. Nie powinno się dopuszczać do znacznych dysproporcji między nimi. Dobrze też zapewniać minimum 400 wypowiedzi dla danej kategorii

Gotowy model można następnie zastosować automatycznie do nowych wypowiedzi klientów. Każda kolejna opinia klienta jest analizowana przez wytrenowany wcześniej model, który na tej podstawie przyporządkowuje ją do jednej lub kilku wcześniej zdefiniowanych kategorii. Platforma wskazuje także jakość wytrenowanego modelu w skali od 0 do 1 – na przedstawionym przykładzie wartość wynosi 0,98, co świadczy o wysokiej skuteczności modelu.

Platforma YourCX umożliwia zarządzanie tymi modelami bezpośrednio w panelu administracyjnym, gdzie użytkownik widzi szczegółowe informacje o dostępnych modelach (typ modelu, liczba skategoryzowanych wypowiedzi, język, data utworzenia oraz liczba użytych kategorii).

Optymalizacja działania modelu

Model także ma możliwość douczania. Jeśli mamy uwagi odnośnie jakości kategoryzacji dla pojedynczej kategorii, można poprawić jakość zbioru uczącego dla tej kategorii poprzez:

  • import realnych wypowiedzi, które pasują do danej kategorii -> skorzystaj z importera
  • automatyczne wygenerowanie wypowiedzi przy użyciu modelu językowego tak, aby pasowały do danej kategorii

Platforma YourCX zawiera od razu wbudowane mechanizmy generowania wypowiedzi, w których dla każdej kategorii możesz wygenerować dowolną liczbę zróżnicowanych wypowiedzi treningowych poprawiających działanie modelu językowego.

Więcej na temat optymalizacji możesz poczytać w artykule "Jak w 9 krokach zacząć korzystać z kategoryzacji automatycznej, aby oszczędzać nawet 60 godzin miesięcznie!"

Modele dla badań oraz własne modele kategoryzacyjne

Każde pytanie w badaniach, które ma kategoryzację ręczną, ma z automatu tworzony model kategoryzacyjny, który uczy się na bazie kategorii ręcznych i kategoryzuje kolejne pojawiające się wypowiedzi. Jednakże w sytuacji, kiedy masz potrzebę kategoryzowania wypowiedzi w wielu pytaniach bądź badaniach, najlepiej skorzystać z modeli własnych. Pozwala to na określenie ogólnego modelu kategoryzacyjnego:

  • dla dowolnych języków
  • dowolnie powiązanych z pytaniami w wielu badaniach

Dzięki temu możliwe jest spójne kategoryzowanie wypowiedzi w wielu badaniach wg tych samych reguł, co pozwala na porównywanie wyników z wielu obszarów.

Indywidualna konfiguracja modelu kategoryzującego

Każdy model kategoryzacyjny ma kilka ustawień technicznych, które można zmienić tak, aby lepiej dopasować jego działanie do swoich potrzeb:

  • określenie bazowego modelu językowego
  • liczba trenowań (epoch) aby model dokładniej dopasował swe działanie do zbioru uczącego
  • zastosowanie ważonej lub uśrednionej funkcji straty do nauki modelu
  • określić minimalne wielkości kategorii, poniżej których kategorie są pomijane w trakcie nauki
  • określić progi prawdopodobieństw aby wyznaczona przez model kategoria została przypisana do wypowiedzi

Po zmianie parametrów należy ponownie trenowanie (naukę) albo kategoryzację (przypisanie kategorii do wypowiedzi) w zależności od tego, które parametry zostały zmienione.

 

2025 ©
YourCX. All rights reserved
Design:
Proformat