Normalizācija tiek lietota, lai novērstu liekos datus un nodrošinātu labas kvalitātes kopu ģenerēšanu, kas var uzlabot klasterizācijas algoritmu efektivitāti. Tāpēc tā kļūst par būtisku soli pirms klasterizācijas kā Eiklīda attāluma. ir ļoti jutīgs pret atšķirību izmaiņām[3].
Vai mums ir jānormalizē dati K-vidējo klasteru veidošanai?
Tāpat kā k-NN metodē, klasterizēšanai izmantotie raksturlielumi jāmēra salīdzināmās vienībās. Šajā gadījumā mērvienības nav problēma, jo visi 6 raksturlielumi ir izteikti 5 ballu skalā. Normalizācija vai standartizācija nav nepieciešama.
Kā sagatavot datus pirms grupēšanas?
Datu sagatavošana
Lai veiktu klasteru analīzi programmā R, parasti dati jāsagatavo šādi: Rindas ir novērojumi (indivīdi) un kolonnas ir mainīgie. Visas trūkstošās vērtības datos ir jānoņem vai jānovērtē. Datiem ir jābūt standartizētiem (t.i., mērogotiem), lai padarītu mainīgos salīdzināmus.
Vai dati ir jāmēro klasteru veidošanai?
Klasteru veidošanā jūs aprēķināt līdzību starp diviem piemēriem, apvienojot visus šo piemēru līdzekļu datus skaitliskā vērtībā. Lai apvienotu funkciju datus, datiem ir jābūt vienādam mērogam.
Kāpēc ir svarīgi normalizēt līdzekļus pirms grupēšanas?
Standartizācija ir svarīgs datu solispriekšapstrāde.
Kā paskaidrots šajā rakstā, k-vidējais rādītājs samazina kļūdu funkciju, izmantojot Ņūtona algoritmu, t.i., uz gradientu balstītu optimizācijas algoritmu. Datu normalizēšana uzlabo šādu algoritmu konverģenci.