Metody eksploracji danych pochodzą w dużej mierze z badań nad sztuczną inteligencją. Różnią się m.in. zastosowanymi algorytmami, zakresem zastosowań i końcową prezentacją uzyskanego wyniku. Wśród metod mamy analizę jakościową oraz ilościową danych, ale też grupowanie i klasyfikowanie. Obecnie jest wiele dziedzin i obszarów, w których stosuje się eksplorację danych. Dzieje się tak zarówno w przypadku korzystania z zasobów internetowych, jak i obszarów związanych ze sprzedażą lub genetyką.
Zobacz też: Co to jest baza danych i do czego służy? Jakie są rodzaje baz danych, jakie wady i zalety ich stosowania? >>>
Czym jest eksploracja danych?
Rozwój technologii sprawia, że dochodzi do nagromadzenia danych – powstaje coraz więcej baz i hurtowni danych. Z każdym dniem firmy, przedsiębiorstwa, placówki państwowe czy banki dodają kolejne dane do swoich zasobów. Czy naprawdę danych jest aż tak dużo? Otóż wystarczy sobie wyobrazić, że supermarkety rejestrują dziennie sprzedaż około tysiąca lub więcej artykułów. Banki zapisują setki tysięcy transakcji, a jeśli chodzi o zasoby internetowe, to archiwum Google mieści co najmniej kilka miliardów stron. Aby dobrze wykorzystać zasoby informacji, trzeba wiedzieć, jak szybko i zarazem efektywnie pozyskiwać odpowiednią wiedzę. W tym celu właśnie korzysta się z eksploracji danych, nazywanej inaczej pozyskiwaniem wiedzy, wydobywaniem lub drążeniem danych. Oznacza to, że eksploracja w tym przypadku jest odkrywaniem potrzebnej wiedzy w bazach lub hurtowniach danych. Jedna z definicji charakteryzuje eksplorację danych jako techniki automatycznego odkrywania schematów, reguł i wzorców w dużych zbiorach danych . Jest to proces, który spełnia dwa warunki: po pierwsze jest automatyczny, a po drugie nie wymaga nadzoru ze strony człowieka. Mimo złożoności procesu i ogromnych baz danych eksploracja jest niezwykle szybkim rozwiązaniem. Warto dodać, że ma służyć również do rozpoznawania problemów przedsiębiorstw, a więc ma pomagać w biznesie. Ponadto mianem eksploracji danych określamy narzędzie generujące analizy i sprawozdania.
Zobacz też: DevOps – co to jest? Na czym polega kultura pracy DevOps? >>>
Metody eksploracji danych
Metody eksploracji danych można podzielić pod względem celu eksploracji oraz pod względem typów wzorców odkrywanych w czasie eksploracji danych. Łącznie możemy wyróżnić sześć głównych klas eksploracji danych: klasyfikacja, odkrywanie asocjacji, grupowanie, wykrywanie zmian i odchyleń, odkrywanie punktów osobliwych oraz analiza przebiegów czasowych .
Na czym polegają powyższe metody? Klasyfikacja polega na odnajdywaniu zależności między klasyfikacją danych obiektów i ich charakterystyką. Grupowanie ma na celu znalezienie skończonych zbiorów klas obiektów o podobnych cechach. Odkrywanie asocjacji polega na odnajdywaniu interesujących zależności między danymi w dużych bazach lub hurtowniach danych. Z kolei wykrywanie zmian i odchyleń ma na celu odnajdywanie różnic między aktualnymi a oczekiwanymi wartościami danych. Odkrywanie punktów osobliwych to metoda, której celem jest wykrywanie obiektów niepasujących do ogólnego schematu danych – ta metoda może łączyć się m.in. z metodą grupowania. Analiza przebiegów czasowych polega zaś na odnajdywaniu podobieństw w przebiegach czasowych.
Zobacz też: Budowa samochodu – jak wygląda auto pod maską? >>>
Eksploracja danych – obszar jej stosowania
Eksploracja danych jest wykorzystywana w wielu dziedzinach i obszarach. Jednym z nich jest szeroko rozumiana nauka . Stosuje się ją m.in. w badaniach genetycznych, przemyśle farmaceutycznym, bioinformatyce czy diagnostyce medycznej. Jest to także bardzo ważne narzędzie w sferze biznesu i obszarze webowym – reklamy, inwestycje, sprzedaż internetowa i oczywiście same przeglądarki internetowe wymagają korzystania z eksploracji danych . Dzięki temu mogą powstawać chociażby spersonalizowane reklamy. Jest to zatem powiązane z dziedziną handlu i marketingu. Dane to wszelkiego rodzaju profile klientów, schematy zakupów czy zapotrzebowania na artykuły. Eksploracja danych występuje również w sferze operacji bankowych, finansów oraz administracji. Pozwala m.in. na wykrywanie nadużyć, ocenę ryzyka kredytowego czy analizę operacji bankowych. Kolejną ważną gałęzią wykorzystującą eksplorację danych jest branża telekomunikacyjna . Z każdym rokiem bazy danych zwiększają swoje zasoby. Eksploracji poddawane są codzienne coraz to inne obiekty, w coraz większej ilości. Chcemy eksplorować zasoby internetowe, pliki multimedialne (takie jak filmy i obrazy) czy sieci społecznościowe.
Autor: Filip Yak