Najbardziej
problematyczne
zagadnienie
–
nikt
nie
zdołał
udzielić
poprawnej
odpowiedzi!
W dzisiejszej publikacji omówimy z Wami proces przekształcający pierwotny zbiór danych w zbiór o mniejszej liczbie wymiarów, który pozwala na jednoczesne zachowanie informacji, które te dane ze sobą niosą.
Czy domyślacie się już o czym mowa?
REDUKCJA WYMIARU (dimensionality reduction)
Zagadnienie, które często przewija się w statystyce i w sferach związanych z uczeniem maszynowym. Ogólna idea stojąca za redukcją wymiaru to przedstawienie danej obserwacji w przestrzeni o wymiarze mniejszym niż w przypadku oryginalnych danych. Nierzadko uczestniczy także jako pośredni etap w zagadnieniach odwołujących się do klasyfikacji, czy regresji.
Co więcej, redukcja wymiaru może polegać na selekcji zmiennych (feature selection), a więc z reguły możemy mówić o odrzuceniu zmiennych nieistotnych statystycznie, nadmiernie skorelowanych bądź w przypadku wystąpienia zjawiska ekstrakcji cech (feature extraction – tworzenie parametrów pochodnych z początkowego zestawu danych).
Istnieje wiele metod, które możemy wykorzystywać do redukcji wymiaru. Poniżej krótko przedstawiamy Wam dwie z nich i jednocześnie zachęcamy do szerszego zapoznania się z nimi.
PCA – Principal Components Analysis (https://pbiecek.github.io/NaPrzelajDataMiningR/part-2.html)
Metoda składowych głównych jest klasycznym skalowaniem wielowymiarowym, które jednak w tym przypadku jest przekształceniem liniowym (nowe zmienne odpowiadają zmienionej bazie przestrzeni, w której kierunki wektorów są tożsame z kierunkami największej wariancji w danych wejściowych).
Inną metodą, o której również warto wspomnieć jest feature agglomeration. Polega na klasteryzacji zmiennych opisujących oraz ich redukcji w obrębie klastrów, czy variance thresholding, który polega na usuwaniu cech o stałej wariancji.
Podczas naszych dotychczasowych rekrutacji pytania dotyczące redukcji wymiarów sprawiły mnóstwo problemów – nikomu nie udało się odpowiedzieć na nie w pełni poprawnie!