Multilabel all-relevant feature selection using lower bounds of conditional mutual information
W pracy rozważamy problem wyboru wszystkich istotnych zmiennych w zadaniu klasyfikacji wielo-etykietowej. Zadanie to jest bardziej ogólne niż problem wyboru minimalnego optymalnego zbioru zmiennych, gdzie zadaniem jest identyfikacja najmniejszego możliwego podzbioru zmiennych, który umożliwia predykcje etykiet. W rozpatrywanym przez nas podejściu, celem jest identyfikacja wszystkich atrybutów powiązanych ze zmiennymi celu. Jest to ważny problem w takich dziedzinach jak medycyna czy bioinformatyka. W artykule opisano formalnie problem wyboru wszystkich cech w kontekście klasyfikacji wieloetykietowej, stosując podejście teorio-informacyjne. Zaproponowano miarę istotności cech oraz efektywną metodę jej obliczania, opartą na dolnym oszacowaniu warunkowej informacji wzajemnej. Kolejnym praktycznym wyzwaniem było oddzielenie cech istotnych od nieistotnych. W tym celu zaproponowano procedurę testowania opartą na schemacie permutacyjnym. Ocena empiryczna metod identyfikacji wszystkich istotnych cech wymaga specyficznego podejścia. W badaniach uwzględniono szeroki zakres symulowanych zbiorów danych reprezentujących różne struktury zależności i zawierających różne typy interakcji. Wyniki eksperymentów na symulowanych zbiorach danych oraz dużej bazie klinicznej pokazują, że zaproponowana metoda skutecznie identyfikuje istotne cechy.
Artykuł:
Expert Systems with Applications
Autorzy z PW:
Paweł Roman Teisseyre
Dyscyplina:
Rok wydania: