Normalizācija ir noderīga ja jūsu datiem ir dažādas skalas un jūsu izmantotais algoritms neizdara pieņēmumus par jūsu datu sadalījumu, piemēram, k-tuvākie kaimiņi un mākslīgais neirons tīkliem. Standartizācijā tiek pieņemts, ka jūsu datiem ir Gausa (zvana līknes) sadalījums.
Kad mums vajadzētu normalizēt datus?
Dati ir jānormalizē vai jāstandartizē lai visi mainīgie būtu proporcionāli viens ar otru. Piemēram, ja viens mainīgais ir 100 reižu lielāks par citu (vidēji), jūsu modelis var darboties labāk, ja normalizēsit/standartizējat divus mainīgos, lai tie būtu aptuveni līdzvērtīgi.
Kāda ir atšķirība starp normalizāciju un standartizāciju?
Normalizācija parasti nozīmē vērtību pārskalošanu diapazonā [0, 1]. Standartizācija parasti nozīmē datu pārmērošanu, lai tiem būtu vidējais 0 un standarta novirze 1 (vienības dispersija).
Kad un kāpēc ir nepieciešama datu normalizēšana?
Vienkāršāk sakot, normalizācija nodrošina, ka visi jūsu dati izskatās un tiek nolasīti vienādi visos ierakstos. Normalizējot tiks standartizēti lauki, tostarp uzņēmumu nosaukumi, kontaktpersonu vārdi, URL, adreses informācija (ielas, štati un pilsētas), tālruņu numuri un amatu nosaukumi.
Kā jūs izvēlaties normalizāciju un standartizāciju?
Biznesa pasaulē "normalizācija" parasti nozīmē, ka vērtību diapazons ir"normalizēts no 0,0 līdz 1,0". “Standartizācija” parasti nozīmē, ka vērtību diapazons ir “standartizēts”, lai noteiktu, cik standarta novirzes vērtībai ir no tās vidējās vērtības.