DBC45

Program DBC45 został napisany jako element pracy inżynierskiej. Stanowi implementację metody skalowania algorytmu C4.5 za pomocą silnika bazodanowego. Łączy się on z bazą danych Oracle i pozwala wykonać eksplorację danych. Buduje drzewo tylko na atrybutach jakościowych ,dane ilościowe wymagają dyskretyzacji. Dodatkowo wszystkie atrybutu w tabeli muszą być jednakowego typu. Do budowy drzewa program wykorzystuje bazę danych przenoszą na nią większą cześć pracy. Program pozwolił na eksplorację danych. Program został poddany testowaniu na danych z konkursu KDD Cup 99. Dla danych uczących program zbudował drzewo w 5 godzin i 54 minuty. Dane testowe posiadały 41 atrybutów, 23 możliwe decyzje i prawie 5 milionów rekordów. Uczenie przeprowadzono na darmowej wersji bazy danych ograniczonej co do ilości wykorzystywanej pamięci ram i z ograniczeniem wykorzystania procesora do jednego rdzenia. Dane testowe zawierały 17 nowych decyzji nie występujących w danych uczących toteż możliwe było poprawne sklasyfikowanie jedynie 93,8 % przypadków.
Do oceny wyników posłużyły głównie 2 miary:

  • Cov (Pokrycie) – stanowi miarę ilości rozpoznawanych elementów ze zbioru testowego.
  • Acc (Celność) – mówiąca o tym jak wiele z po±ród rozpoznanych obiektów zostało rozpoznanych poprawnie

Wyniki dla drzewa nieprzyciętego wyniosły:
Cov=0.767 Acc=0.932
Wyniki dla drzewa przyciętego ze współczynnikiem 0.95 wyniosły:
Cov=0,98126 Acc=0,92158
Wyniki dla drzewa przyciętego ze współczynnikiem 0.75 wyniosły:
Cov=0,90957 Acc=0,86264
Dodatkowo oceniano także precyzję rozpoznawania każdej z klas decyzyjnych z osobna.
Program do pobrania:
DBC45

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *