Cum funcționează algoritmul ID3 cu date categorice?

În domeniul extragerii datelor și al învățării automate, algoritmii joacă un rol esențial în extragerea unor idei valoroase din cantități mari de date. Un astfel de algoritm care s -a dovedit a fi extrem de eficient, mai ales atunci când se ocupă de date categorice, este algoritmul ID3 (dicotomiser iterativ 3). În calitate de furnizor de algoritm ID3, sunt încântat să mă apuc de funcționarea interioară a acestui algoritm puternic și să explorez modul în care procesează datele categorice.

Înțelegerea datelor categorice

Înainte de a ne scufunda în algoritmul ID3, să înțelegem mai întâi care sunt datele categorice. Datele categorice sunt formate din variabile care pot prelua un număr limitat și de obicei fixat de valori posibile. Aceste valori sunt de obicei calitative și reprezintă diferite categorii sau grupuri. De exemplu, într -un set de date al mașinilor, variabilele categorice ar putea include Make Make (de exemplu, Volkswagen, Toyota, Ford), Model (de exemplu,VW CC NOU VEHICUL ENERGY VOLKSWAGEN DEALERship,VW ID4 CROZZ PRIME MIDIE MIDIE SUV NOU ENERGY VEHICE,VW Tiguanl a folosit Dea dealer Volkswagen Car Volkswagen), culoare (de exemplu, roșu, albastru, negru) și tip de combustibil (de exemplu, benzină, diesel, electric).

Datele categorice sunt predominante în multe aplicații din lumea reală, cum ar fi cercetarea de piață, asistența medicală și segmentarea clienților. Analizarea acestui tip de date poate oferi informații valoroase asupra modelelor, tendințelor și relațiilor care pot informa procesele de luare a deciziilor.

Bazele algoritmului ID3

Algoritmul ID3 este un algoritm de inducție a arborelui de decizie dezvoltat de Ross Quinlan în 1986. Este utilizat pentru a construi arbori de decizie dintr -un set de date de atribute categorice. Un arbore de decizie este o structură asemănătoare cu fluxul în care fiecare nod intern reprezintă un „test” pe un atribut, fiecare ramură reprezintă rezultatul testului și fiecare nod de frunze reprezintă o etichetă de clasă.

Obiectivul principal al algoritmului ID3 este crearea unui arbore de decizie care să poată clasifica cu exactitate noi instanțe pe baza valorilor atributelor lor. Face acest lucru prin împărțirea recursiv a setului de date în subseturi pe baza valorilor atributelor, cu scopul de a maximiza câștigul de informații la fiecare divizare.

Câștig de informații și entropie

Pentru a înțelege cum funcționează algoritmul ID3, trebuie să introducem două concepte importante: entropie și câștig de informații.

Entropia este o măsură a impurității sau a aleatoriu într -un set de date. În contextul clasificării, reprezintă gradul de incertitudine cu privire la eticheta de clasă a unei instanțe. Un set de date cu entropie ridicată este mai divers și conține un amestec de diferite etichete de clasă, în timp ce un set de date cu entropie scăzută este mai omogen și conține în mare parte cazuri din aceeași clasă.

Formula pentru entropie este dată de:

[H (s) = - \ sum_ {i = 1}^{c} p_i \ log_2 (p_i)

unde (s) este setul de date, (c) este numărul de clase și (p_i) este proporția de instanțe aparținând clasei (i) din setul de date.

Câștigarea informațiilor, pe de altă parte, este o măsură a cât de mult este redus entropia unui set de date prin împărțirea acestuia pe baza unui anumit atribut. Este calculat ca diferența dintre entropia setului de date inițial și media ponderată a entropiilor subseturilor create de divizare.

Formula câștigului informațional este dată de:

[Ig (s, a) = h (s) - \ sum_ {v \ în valori (a)} \ frac {| s_v |} {| s |} h (s_v)]

unde (s) este setul de date, (a) este atributul utilizat pentru împărțire, (valorile (a)) este setul tuturor valorilor posibile ale atributului (a), (s_v) este subsetul de (s) care are valoarea (v) pentru atributul (a) și (| s |) și (| s_v |) sunt dimensiunile datelor (s) și (s_v), respectiv.

Algoritmul ID3 pas cu pas

Acum că avem o înțelegere de bază a entropiei și a câștigului informațiilor, să parcurgem pașii algoritmului ID3:

Inițializare: Începeți cu întregul set de date ca nod rădăcină al arborelui de decizie.
Selectarea atributelor: Calculați câștigul de informații pentru fiecare atribut din setul de date. Selectați atributul cu cel mai mare câștig de informații ca atribut de divizare pentru nodul curent.
Despicare: Creați o ramură pentru fiecare valoare posibilă a atributului de divizare. Împărțiți setul de date în subseturi pe baza valorilor atributului de divizare și alocați fiecare subset la sucursala corespunzătoare.
Recurs: Pentru fiecare subset creat de despărțire, repetați pașii 2 și 3 până când este îndeplinită una dintre următoarele condiții de oprire:
- Toate cazurile din subset aparțin aceleiași clase. În acest caz, creați un nod de frunze etichetat cu clasa.
- Nu mai există atribute pe care să le împărțiți. În acest caz, creați un nod de frunze etichetat cu cea mai comună clasă din subset.
- Subsetul este gol. În acest caz, creați un nod de frunze etichetat cu cea mai comună clasă în subsetul părinte.

Un exemplu de algoritm ID3 în acțiune

Să ilustrăm algoritmul ID3 cu un exemplu simplu. Să presupunem că avem un set de date de mașini cu următoarele atribute: Make, Model, Color și Tip de combustibil, iar eticheta clasei este dacă mașina este un nou vehicul energetic sau nu.

Face	Model	Culoare	Tip de combustibil	Vehicul energetic nou
VW	CC	Roşu	Electric	Da
VW	Id4	Albastru	Electric	Da
VW	Tiguanl	Negru	Benzină	Nu
Toyota	Corolă	Alb	Benzină	Nu
Vad	Concentrați -vă	Argint	Benzină	Nu

Pentru a construi un arbore de decizie folosind algoritmul ID3, calculăm mai întâi entropia întregului set de date. Deoarece există 2 clase (da și nu) și 5 cazuri, cu 2 cazuri în clasa „da” și 3 cazuri din clasa „nu”, entropia este:

[H (s) = - \ left (\ frac {2} {5} \ log_2 (\ frac {2} {5}) + \ frac {3} {5} \ log_2 (\ frac {3} {5}) \ dreapta) \ aprox 0.971]

În continuare, calculăm câștigul de informații pentru fiecare atribut. De exemplu, dacă împărțim setul de date pe baza atributului „tip de combustibil”, obținem două subseturi: unul cu mașini electrice și unul cu mașini cu benzină.

Subsetul de mașini electrice are 2 cazuri, ambele fiind noi vehicule energetice, deci entropia sa este:

[H (s_ {electric}) = - \ left (\ frac {2} {2} \ log_2 (\ frac {2} {2}) \ dreapta) = 0]

Subsetul de mașini pe benzină are 3 cazuri, toate nu sunt vehicule energetice noi, deci entropia sa este:

[H (s_ {benzină}) = - \ left (\ frac {3} {3} \ log_2 (\ frac {3} {3}) \ dreapta) = 0]

Câștigul de informații pentru atributul „tip de combustibil” este:

[ IG(S, Fuel Type) = H(S) - \left( \frac{2}{5} H(S_{Electric}) + \frac{3}{5} H(S_{Gasoline}) \right) = 0.971 - \left( \frac{2}{5} \times 0 + \frac{3}{5} \times 0 \right) = 0,971]

Repetăm acest proces pentru celelalte atribute și selectăm atributul cu cel mai mare câștig de informații ca atribut de divizare pentru nodul rădăcină. În acest caz, atributul „tip de combustibil” are cel mai mare câștig de informații, astfel încât împărțim setul de date pe baza acestui atribut.

Apoi aplicăm recursiv algoritmul ID3 pe fiecare subset creat de divizare până când avem un arbore de decizie complet.

Avantajele și limitările algoritmului ID3

Algoritmul ID3 are mai multe avantaje, inclusiv:

Simplitate: Algoritmul este relativ ușor de înțeles și de implementat, ceea ce îl face o alegere populară pentru începătorii în învățarea automată.
Interpretabilitate: Arborele de decizie generate de algoritmul ID3 sunt ușor de interpretat, deoarece oferă o reprezentare vizuală clară a regulilor de clasificare.
Gestionarea datelor categorice: Algoritmul ID3 este conceput special pentru a gestiona datele categorice, ceea ce îl face bine potrivit pentru aplicațiile în care atributele sunt de natură calitativă.

Cu toate acestea, algoritmul ID3 are și unele limitări:

Suprasolicitare: Algoritmul tinde să depășească datele de antrenament, mai ales atunci când setul de date este mic sau numărul de atribute este mare. Acest lucru poate duce la o performanță de generalizare slabă pe date noi.
Prejudecăți către atribute cu multe valori: Algoritmul ID3 are o părtinire față de atribute cu multe valori, deoarece tind să aibă un câștig de informații mai mare. Acest lucru poate duce la arbori de decizie suboptimali.
Gestionarea datelor continue: Algoritmul ID3 este proiectat pentru date categorice și nu gestionează bine datele continue. Atributele continue trebuie discretizate înainte de a putea fi utilizate în algoritm.

Concluzie

În concluzie, algoritmul ID3 este un instrument puternic pentru construirea de arbori de decizie din date categorice. Utilizează conceptele de entropie și câștig de informații pentru a împărți recursiv setul de date în subseturi, cu scopul de a maximiza câștigul de informații la fiecare divizare. Arborele de decizie rezultate sunt ușor de interpretat și pot oferi informații valoroase asupra regulilor de clasificare.

În calitate de furnizor de algoritm ID3, ne-am angajat să oferim soluții de înaltă calitate care să utilizeze puterea acestui algoritm pentru a ajuta clienții noștri să ia decizii în cunoștință de cauză pe baza datelor lor categorice. Indiferent dacă vă aflați în industria auto, asistența medicală sau orice alt domeniu care se ocupă de date categorice, algoritmul nostru ID3 vă poate ajuta să extrageți informații valoroase și să vă îmbunătățiți procesele de luare a deciziilor.

Dacă sunteți interesat să aflați mai multe despre modul în care algoritmul nostru ID3 poate beneficia de afacerea dvs. sau dacă doriți să discutați cu un proiect potențial cu noi, vă rugăm să nu ezitați să vă adresați pentru o negociere a achizițiilor. Așteptăm cu nerăbdare să lucrăm cu tine!

Referințe

Quinlan, Jr (1986). Inducerea arborilor de decizie. Învățare automată, 1 (1), 81-106.
Mitchell, TM (1997). Învățare automată. McGraw-Hill.