Contact

Najbardziej
problematyczne
zagadnienie

nikt
nie
zdołał
udzielić
poprawnej
odpowiedzi!

W dzisiejszej publikacji omówimy z Wami proces przekształcający pierwotny zbiór danych w zbiór o mniejszej liczbie wymiarów, który pozwala na jednoczesne zachowanie informacji, które te dane ze sobą niosą.

Czy domyślacie się już o czym mowa?

REDUKCJA WYMIARU (dimensionality reduction)

Zagadnienie, które często przewija się w statystyce i w sferach związanych z uczeniem maszynowym. Ogólna idea stojąca za redukcją wymiaru to przedstawienie danej obserwacji w przestrzeni o wymiarze mniejszym niż w przypadku oryginalnych danych. Nierzadko uczestniczy także jako pośredni etap w zagadnieniach odwołujących się do klasyfikacji, czy regresji.

Co więcej, redukcja wymiaru może polegać na selekcji zmiennych (feature selection), a więc z reguły możemy mówić o odrzuceniu zmiennych nieistotnych statystycznie, nadmiernie skorelowanych bądź w przypadku wystąpienia zjawiska ekstrakcji cech (feature extraction – tworzenie parametrów pochodnych z początkowego zestawu danych).

Istnieje wiele metod, które możemy wykorzystywać do redukcji wymiaru. Poniżej krótko przedstawiamy Wam dwie z nich i jednocześnie zachęcamy do szerszego zapoznania się z nimi.

 PCA – Principal Components Analysis (https://pbiecek.github.io/NaPrzelajDataMiningR/part-2.html)

Metoda składowych głównych jest klasycznym skalowaniem wielowymiarowym, które jednak w tym przypadku jest przekształceniem liniowym (nowe zmienne odpowiadają zmienionej bazie przestrzeni, w której kierunki wektorów są tożsame z kierunkami największej wariancji w danych wejściowych).

Inną metodą, o której również warto wspomnieć jest feature agglomeration. Polega na klasteryzacji zmiennych opisujących oraz ich redukcji w obrębie klastrów, czy variance thresholding, który polega na usuwaniu cech o stałej wariancji.

Podczas naszych dotychczasowych rekrutacji pytania dotyczące redukcji wymiarów sprawiły mnóstwo problemów – nikomu nie udało się odpowiedzieć na nie w pełni poprawnie!