Algorytmy eksploracji i przetwarzania masywnych zbiorów danych

By Weronika Skotnicka

Eksploracja danych – Wikipedia, wolna encyklopedia

Eksploracja danych, pozyskiwanie danych, drążenie danych, wydobywanie danych – jeden z etapów procesu uzyskiwania wiedzy z baz danych. Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych.

Istnieje wiele technik eksploracji danych, które wywodzą się z ugruntowanych dziedzin nauki, takich jak statystyka (statystyczna analiza wielowymiarowa) i uczenie maszynowe.

Techniki eksploracji danych [ edytuj | edytuj kod ]

Techniki i metody służące eksploracji danych wywodzą się głównie z dziedziny badań nad sztuczną inteligencją. Główne przykłady stosowanych rozwiązań należą do następujących obszarów:

Metody przetwarzania [ edytuj | edytuj kod ]

W eksploracji danych rozwijane są różne metody przetwarzania, różniące się zakresem zastosowań, stosowanymi algorytmami rozwiązań, sposobem prezentacji wyników. Wśród nich wyróżnia się:

streszczanie

poszukiwanie asocjacji

analiza jakościowa danych

analiza ilościowa danych

klasyfikacja

grupowanie

Obszar stosowania [ edytuj | edytuj kod ]

Obszarów stosowania eksploracji danych jest wiele, obejmują one te miejsca, w których stosuje się systemy informatyczne, między innymi w celu gromadzenia pozyskanych danych w postaci baz danych. Jesteśmy świadkami prawdziwej eksplozji baz danych, mając na myśli ich liczbę i objętość. Ogromne zbiory danych gromadzone są w hurtowniach danych. Z powodu dużej prostoty konstruowania bazy danych oraz akceptowalnych cen, systemy gromadzące dane stosuje się prawie we wszystkich dziedzinach życia. Wszędzie tam natomiast, gdzie istnieje już baza danych, pojawia się potrzeba analizy tych danych w celu odkrycia nieznanej dotąd wiedzy. Dziedziny, w których szeroko stosuje się eksplorację danych, to technika, medycyna, astronomia, ekonomia, szeroko pojęty biznes.

Zastosowania KDD znajdują zastosowania przy:

eksploracji danych o ruchu internetowym

rozpoznawaniu sygnałów obrazu, mowy i pisma

wspomaganiu diagnostyki medycznej

badaniach genetycznych

analizie operacji bankowych

projektowaniu hurtowni danych

tworzeniu reklam skierowanych

prognozowaniu sprzedaży

wykrywaniu nadużyć

ocenie ryzyka kredytowego

segmentacji klientów.

Przykładem może być odkrycie w danych z supermarketu zależności polegającej na tym że klient, który kupuje szampana i kwiaty, kupuje zwykle również czekoladki.

Przykłady wizualizacji [ edytuj | edytuj kod ]

Wykresy rozkładów empirycznych dla wybranych zmiennych predykcyjnych są tym lepsze im linie obrazujące poszczególne klasy są względem siebie znacząco przesunięte. W sytuacji, gdy się na siebie nakładają, praktycznie nie ma możliwości wyznaczenia do jakiej klasy należą.

Wykres pudełkowy [ edytuj | edytuj kod ]

Celem obrazowania właściwości poszczególnych cech na wykresach pudełkowych jest wyłonienie takich zmiennych, które charakteryzują się największymi przesunięciami względem siebie kwantyli, wartości maksymalnych, minimalnych oraz median.

Histogramy dla wybranych zmiennych predykcyjnych są tym lepsze im słupki są bardziej zróżnicowane. W sytuacji, gdy się na siebie nakładają, praktycznie nie ma możliwości wyznaczenia do jakiej klasy należą.

Co można odczytać z wykresów? [ edytuj | edytuj kod ]

Tabelka przedstawia jakie dane można odczytać z poszczególnych wykresów.

Gęstość Pudełkowy Histogram Kwantyl N T N Mediana N T N Minimum T T T Maksimum T T T Wartość cechy T T T Liczebność T N T Częstość T N T Wzajemna korelacja zmiennych T N T

Hand David, Mannila Heikki, Smyth Padhraic, Eksploracja danych , WNT, Warszawa 2005, ISBN 83-204-3053-4

, WNT, Warszawa 2005, ISBN Daniel T. Larose, Odkrywanie wiedzy z danych, Wyd. Nauk. PWN, Warszawa 2006, ISBN 83-01-14836-5

Techniki eksploracji danych: algorytm, metody i najlepsze narzędzia eksploracji danych

data mining techniques

Ten szczegółowy samouczek dotyczący technik eksploracji danych wyjaśnia algorytmy, narzędzia eksploracji danych i metody wydobywania przydatnych danych:

W tym Szczegółowe samouczki szkoleniowe dotyczące eksploracji danych dla wszystkich , omówiliśmy wszystko na temat eksploracji danych w naszym poprzednim samouczku.

W tym samouczku nauczymy się różnych technik używanych do wyodrębniania danych. Ponieważ wiemy, że eksploracja danych to koncepcja wydobywania użytecznych informacji z ogromnej ilości danych, niektóre techniki i metody są stosowane do dużych zbiorów danych w celu wydobycia użytecznych informacji.

Techniki te mają zasadniczo postać metod i algorytmów stosowanych do zbiorów danych. Niektóre z technik eksploracji danych obejmują Eksplorowanie częstych wzorców, skojarzeń i korelacji, klasyfikacje, grupowanie, wykrywanie wartości odstających oraz niektóre zaawansowane techniki, takie jak eksploracja danych statystycznych, wizualnych i dźwiękowych.

Ogólnie rzecz biorąc, relacyjne bazy danych, transakcyjne bazy danych i hurtownie danych są używane do technik eksploracji danych. Jednak istnieją również zaawansowane techniki eksploracji złożonych danych, takich jak szeregi czasowe, sekwencje symboliczne i biologiczne dane sekwencyjne.

Czego się nauczysz:

Cel technik eksploracji danych

Ponieważ każdego dnia przechowywanych jest ogromna ilość danych, firmy są teraz zainteresowane poznaniem na ich podstawie trendów. Techniki ekstrakcji danych pomagają w przekształcaniu surowych danych w użyteczną wiedzę. Aby wydobywać ogromne ilości danych, potrzebne jest oprogramowanie, ponieważ człowiek nie jest w stanie ręcznie przejrzeć dużej ilości danych.

Oprogramowanie do eksploracji danych analizuje relacje między różnymi elementami w dużych bazach danych, co może pomóc w podejmowaniu decyzji, dowiedzieć się więcej o klientach, opracować strategie marketingowe, zwiększyć sprzedaż i obniżyć koszty.

Lista technik ekstrakcji danych

Technika eksploracji danych, która ma zostać zastosowana, zależy od perspektywy naszej analizy danych.

Omówmy więc różne techniki wyodrębniania danych na różne sposoby:

# 1) Częsta analiza wyszukiwania wzorców / asocjacji

Ten typ techniki eksploracji danych szuka powtarzających się relacji w danym zestawie danych. Poszuka interesujących powiązań i korelacji między różnymi elementami w bazie danych i zidentyfikuje wzorzec.

Przykład, tego rodzaju byłaby „Analiza koszyka zakupów”: sprawdzenie, „jakie produkty klienci prawdopodobnie kupią razem w sklepie?” takie jak chleb i masło.

Podanie: Projektowanie rozmieszczenia produktów na półkach sklepowych, marketing, sprzedaż krzyżowa produktów.

Wzorce można przedstawić w postaci reguł asocjacyjnych. Reguła asocjacji mówi, że wsparcie i pewność są parametrami umożliwiającymi określenie przydatności powiązanych elementów. Transakcje, w których oba elementy zostały zakupione razem za jednym razem, są znane jako wsparcie.

Transakcje, w których klienci kupili oba przedmioty, ale jeden po drugim, to zaufanie. Wydobywany wzorzec byłby uważany za interesujący, gdyby miał rozszerzenie minimalny próg wsparcia i minimalny próg ufności wartość. Wartości progowe są ustalane przez ekspertów dziedzinowych.

Chleb => masło [wsparcie = 2%, pewność-60%]

Powyższe stwierdzenie jest przykładem reguły asocjacyjnej. Oznacza to, że istnieje 2% transakcji, która kupiła razem chleb i masło, a 60% klientów kupiło zarówno chleb, jak i masło.

Kroki do wdrożenia analizy powiązań:

Znajdowanie częstych zestawów przedmiotów. Zestaw elementów oznacza zestaw elementów. Zestaw elementów zawierający k elementów jest zestawem elementów k. Częstotliwość zestawu pozycji to liczba transakcji, które zawierają ten zestaw. Generowanie silnych reguł asocjacji z częstych zestawów elementów. Przez silne reguły asocjacyjne rozumiemy, że minimalny próg wsparcia i zaufania jest spełniony.

Istnieją różne metody eksploracji zestawów przedmiotów, takie jak algorytm Apriori, podejście do wzrostu wzorców i wydobywanie z wykorzystaniem formatu danych pionowych. Ta technika jest powszechnie znana jako analiza koszyka rynkowego.

# 2) Analiza korelacji

Analiza korelacji to tylko rozszerzenie reguł asocjacyjnych. Czasami parametry wsparcia i zaufania mogą nadal dawać użytkownikom nieciekawe wzorce.

Przykładem na poparcie powyższego może być: na 1000 przeanalizowanych transakcji 600 dotyczyło tylko pieczywa, 750 obejmowało masło, a 400 obejmowało zarówno chleb z masłem. Załóżmy, że minimalne wsparcie dla uruchomienia reguły asocjacyjnej wynosi 30%, a minimalna ufność to 60%.

Wartość wsparcia 400/1000 = 40% i wartość ufności = 400/600 = 66% spełnia próg. Widzimy jednak, że prawdopodobieństwo zakupu masła wynosi 75%, czyli ponad 66%. Oznacza to, że pieczywo i masło są ujemnie skorelowane, gdyż zakup jednego prowadziłby do spadku zakupu drugiego. Wyniki są mylące.

Z powyższego przykładu, wsparcie i zaufanie są uzupełnione inną miarą ciekawości, czyli analizą korelacji, która pomoże w wydobyciu interesujących wzorców.

A => B [wsparcie, pewność, korelacja].

Reguła korelacji jest mierzona za pomocą wsparcia, ufności i korelacji między zestawami pozycji A i B. Korelacja jest mierzona przez wzrost i chi-kwadrat.

(Podnoszę: Jak mówi samo słowo, wzrost reprezentuje stopień, w jakim obecność jednego zestawu przedmiotów podnosi występowanie innych zestawów przedmiotów.

Wzrost między wystąpieniem A i B można zmierzyć za pomocą:

Podnoszenie (A, B) = P (A U B) / P (A). P (B).

Jeśli to jest<1, then A and B are negatively correlated.

Jeśli jest> 1. Wtedy A i B są dodatnio skorelowane, co oznacza, że ​​wystąpienie jednego implikuje wystąpienie drugiego.

Jeśli jest = 1, to nie ma między nimi korelacji.

(ii) Chi-kwadrat: To kolejna miara korelacji. Mierzy kwadratową różnicę między wartością obserwowaną i oczekiwaną dla szczeliny (para A i B) podzieloną przez wartość oczekiwaną.

Jeśli jest> 1, to jest ujemnie skorelowany.

# 3) Klasyfikacja

Klasyfikacja pomaga w budowaniu modeli ważnych klas danych. Model lub klasyfikator jest konstruowany w celu przewidywania etykiet klas. Etykiety to zdefiniowane klasy z dyskretnymi wartościami, takimi jak „tak” lub „nie”, „bezpieczny” lub „ryzykowny”. Jest to rodzaj uczenia nadzorowanego, ponieważ klasa etykiety jest już znana.

Klasyfikacja danych to proces dwuetapowy:

Etap nauki: Model jest budowany tutaj. Wstępnie zdefiniowany algorytm jest stosowany do danych do analizy z dostarczoną etykietą klasy i konstruowane są reguły klasyfikacji. Krok klasyfikacji: Model służy do przewidywania etykiet klas dla podanych danych. Dokładność reguł klasyfikacji jest szacowana na podstawie danych testowych, które, jeśli zostaną uznane za dokładne, są wykorzystywane do klasyfikacji nowych krotek danych.

Elementy w zestawie elementów zostaną przypisane do kategorii docelowych w celu przewidywania funkcji na poziomie etykiety klasy.

Podanie: Banki identyfikują osoby ubiegające się o pożyczkę jako osoby niskiego, średniego lub wysokiego ryzyka, firmy projektujące kampanie marketingowe w oparciu o klasyfikację grup wiekowych. ”

# 4) Indukcja drzewa decyzyjnego

Metoda indukcji drzew decyzyjnych jest objęta analizą klasyfikacyjną. Drzewo decyzyjne to struktura przypominająca drzewo, która jest łatwa do zrozumienia, prosta i szybka. W tym przypadku każdy węzeł niebędący liściem reprezentuje test atrybutu, a każda gałąź reprezentuje wynik testu, a węzeł liścia reprezentuje etykietę klasy.

Wartości atrybutów w krotce są testowane na podstawie drzewa decyzyjnego od korzenia do węzła liścia. Drzewa decyzyjne są popularne, ponieważ nie wymagają znajomości domeny. Mogą one reprezentować dane wielowymiarowe. Drzewa decyzyjne można łatwo przekształcić w reguły klasyfikacji.

Podanie: Drzewa decyzyjne są konstruowane w medycynie, produkcji, produkcji, astronomii itp. Przykład można zobaczyć poniżej:

# 5) Klasyfikacja Bayesa

Klasyfikacja Bayesa to kolejna metoda analizy klasyfikacji. Klasyfikatory Bayesa przewidują prawdopodobieństwo przynależności danej krotki do określonej klasy. Opiera się na twierdzeniu Bayesa, które jest oparte na teorii prawdopodobieństwa i decyzji.

Klasyfikacja Bayesa dotyczy późniejszego i wcześniejszego prawdopodobieństwa w procesie podejmowania decyzji. W przypadku prawdopodobieństwa a posteriori hipoteza jest tworzona na podstawie podanych informacji, tj. Wartości atrybutów są znane, podczas gdy dla prawdopodobieństwa wcześniejszego hipotezy są podawane niezależnie od wartości atrybutów.

# 6) Analiza skupień

Jest to technika podziału zbioru danych na klastry lub grupy obiektów. Klastrowanie odbywa się za pomocą algorytmów. Jest to rodzaj uczenia się bez nadzoru, ponieważ informacje zawarte na etykiecie nie są znane. Metody grupowania identyfikują dane, które są podobne lub różne od siebie, i przeprowadza się analizę charakterystyk.

Analiza skupień może być wykorzystana jako krok wstępny do zastosowania różnych innych algorytmów, takich jak charakteryzacja, wybór podzbiorów atrybutów itp. Analiza skupień może być również używana do wykrywania wartości odstających, takich jak wysokie zakupy w transakcjach kartą kredytową.

Aplikacje: Rozpoznawanie obrazów, wyszukiwanie w Internecie i bezpieczeństwo.

# 7) Wykrywanie wartości odstających

Proces znajdowania obiektów danych, które odznaczają się wyjątkowym zachowaniem od innych obiektów, nazywany jest wykrywaniem wartości odstających. Wykrywanie wartości odstających i analiza skupień są ze sobą powiązane. Metody wartości odstających są podzielone na statystyczne, oparte na bliskości, oparte na klastrach i oparte na klasyfikacji.

Istnieją różne typy wartości odstających, niektóre z nich to:

Globalne wartości odstające: Obiekt danych znacznie odbiegał od reszty zbioru danych.

Obiekt danych znacznie odbiegał od reszty zbioru danych. Kontekstowa wartość odstająca: Zależy to od pewnych czynników, takich jak dzień, godzina i lokalizacja. Jeśli obiekt danych różni się znacznie w odniesieniu do kontekstu.

Zależy to od pewnych czynników, takich jak dzień, godzina i lokalizacja. Jeśli obiekt danych różni się znacznie w odniesieniu do kontekstu. Zbiorowa wartość odstająca: Gdy grupa obiektów danych zachowuje się inaczej niż cały zestaw danych.

Podanie: Wykrywanie ryzyk oszustw związanych z kartami kredytowymi, wykrywanie nowości itp.

# 8) Wzory sekwencyjne

W tego typu eksploracji danych rozpoznawany jest trend lub pewne spójne wzorce. Zrozumienie zachowań zakupowych klientów i sekwencyjnych wzorców jest wykorzystywane przez sklepy do wyświetlania swoich produktów na półkach.

Podanie: Przykład handlu elektronicznego, w którym kupując przedmiot A, pokaże, że przedmiot B jest często kupowany z przedmiotem A, patrząc na historię zakupów w przeszłości.

# 9) Analiza regresji

Ten rodzaj analizy jest nadzorowany i identyfikuje, które elementy spośród różnych relacji są ze sobą powiązane lub są od siebie niezależne. Potrafi przewidywać sprzedaż, zysk, temperaturę, prognozować zachowanie ludzi itp. Posiada wartość zestawu danych, która jest już znana.

Po podaniu danych wejściowych algorytm regresji porówna dane wejściowe i wartość oczekiwaną, a błąd zostanie obliczony w celu uzyskania dokładnego wyniku.

Podanie: Porównanie działań marketingowych i rozwoju produktu.

Najlepsze algorytmy wyszukiwania danych

Techniki eksploracji danych są stosowane za pomocą algorytmów, które za nimi stoją. Algorytmy te działają w oprogramowaniu do ekstrakcji danych i są stosowane w zależności od potrzeb biznesowych.

Niektóre z algorytmów, które są szeroko stosowane przez organizacje do analizy zbiorów danych, są zdefiniowane poniżej:

K-oznacza: Jest to popularna technika analizy skupień, w której grupa podobnych elementów jest skupiona razem. Algorytm Apriori: Jest to częsta technika eksploracji zestawów elementów i reguły asocjacji są stosowane do niej w transakcyjnych bazach danych. Wykryje częste zestawy przedmiotów i podkreśli ogólne trendy. K Najbliższy sąsiad: Ta metoda jest używana do klasyfikacji i analizy regresji. K najbliższy sąsiad leniwie uczy się, gdzie przechowuje dane szkoleniowe, a gdy nadejdzie nowe dane bez etykiety, klasyfikuje dane wejściowe. Statki Bayesa: Jest to grupa prostych algorytmów klasyfikacji probabilistycznej, które zakładają, że cechy obiektu danych są od siebie niezależne. Jest to zastosowanie twierdzenia Bayesa. AdaBoost: Jest to meta-algorytm uczenia maszynowego, który służy do poprawy wydajności. Adaboost jest wrażliwy na zaszumione dane i wartości odstające.

Metody ekstrakcji danych

Niektóre zaawansowane metody eksploracji danych do obsługi złożonych typów danych zostały wyjaśnione poniżej.

Dane w dzisiejszym świecie są różnego typu, od prostych po złożone. Aby wydobywać złożone typy danych, takie jak szeregi czasowe, dane wielowymiarowe, przestrzenne i multimedialne, potrzebne są zaawansowane algorytmy i techniki.

Niektóre z nich opisano poniżej:

KLIKNIJ: Była to pierwsza metoda grupowania, która pozwoliła znaleźć klastry w wielowymiarowej podprzestrzeni. P3C: Jest to dobrze znana metoda grupowania danych o średnim i wysokim poziomie wielowymiarowym. JEZIORO: Jest to metoda oparta na k-średnich, mająca na celu grupowanie danych o średniej i dużej wymiarowości. Algorytm dzieli dane na k rozłącznych zestawów elementów, usuwając możliwe wartości odstające. CURLER: Jest to algorytm klastrowania korelacji, wykrywa zarówno korelacje liniowe, jak i nieliniowe.

Data Mining Tools to oprogramowanie służące do wydobywania danych. Narzędzia uruchamiają algorytmy na zapleczu. Narzędzia te są dostępne na rynku w wersji Open Source, Free Software i Licensed.

Niektóre z narzędzi do wyodrębniania danych obejmują:

1) RapidMiner

RapidMiner to platforma oprogramowania typu open source dla zespołów analitycznych, która łączy przygotowanie danych, uczenie maszynowe i predykcyjne wdrażanie modeli. To narzędzie służy do przeprowadzania analizy eksploracji danych i tworzenia modeli danych. Ma duże zestawy algorytmów klasyfikacji, grupowania, eksploracji reguł asocjacyjnych i regresji.

# 2) Pomarańczowy

Jest to narzędzie typu open source zawierające pakiet do wizualizacji i analizy danych. Orange można zaimportować w dowolnym działającym środowisku Pythona. Jest odpowiedni dla nowych badaczy i małych projektów.

# 3) JĘZYK

KEEL (Knowledge Extraction based on Evolutionary Learning) to oprogramowanie typu open source ( GPLv3 ) Oprogramowanie Java, które może być używane do wielu różnych zadań związanych z odkrywaniem danych wiedzy.

# 4) SPSS

IBM SPSS Modeler to aplikacja do eksploracji danych i analizy tekstu firmy IBM. Służy do budowania modeli predykcyjnych i wykonywania innych zadań analitycznych.

# 5) KNIME

Jest to bezpłatne narzędzie o otwartym kodzie źródłowym zawierające pakiet do czyszczenia i analizy danych, wyspecjalizowane algorytmy w obszarach analizy nastrojów i analizy sieci społecznościowych. KNIME może integrować dane z różnych źródeł w tej samej analizie. Posiada interfejs z programowaniem w językach Java, Python i R.

Ważne pytanie: Czym różni się klasyfikacja od przewidywania?

Klasyfikacja to grupa danych. Przykład Klasyfikacji to grupowanie na podstawie grupy wiekowej, stanu zdrowia itp. Podczas prognozowania wyprowadza wynik przy użyciu sklasyfikowanych danych.

Przykład Analizy Predykcyjnej to przewidywanie zainteresowań w oparciu o grupę wiekową, leczenie schorzenia. Prognozowanie jest również znane jako Szacowanie wartości ciągłych.

Ważny termin: predykcyjne wyszukiwanie danych

Predictive Data Mining służy do prognozowania lub przewidywania określonych trendów danych przy użyciu analizy biznesowej i innych danych. Pomaga firmom mieć lepszą analitykę i podejmować lepsze decyzje. Predictive Analytics jest często łączone z Predictive Data Mining.

Predictive Data Mining wyszukuje odpowiednie dane do analizy. Analizy predykcyjne wykorzystują dane do prognozowania wyniku.

Wniosek

W tym samouczku omówiliśmy różne techniki eksploracji danych, które mogą pomóc organizacjom i firmom znaleźć najbardziej przydatne i odpowiednie informacje. Informacje te są wykorzystywane do tworzenia modeli, które będą przewidywać zachowanie klientów, aby firmy mogły na nich działać.

Czytając wszystkie powyższe informacje o technikach eksploracji danych, można jeszcze lepiej określić ich wiarygodność i wykonalność. Techniki ekstrakcji danych obejmują pracę z danymi, ponowne formatowanie danych, restrukturyzację danych. Format potrzebnych informacji jest oparty na technice i analizie, którą należy przeprowadzić.

Wreszcie wszystkie techniki, metody i systemy eksploracji danych pomagają w odkrywaniu nowych kreatywnych innowacji.

POPRZEDNIA samouczek | NEXT Tutorial

Algorytmy eksploracji i przetwarzania masywnych zbiorów danych

Aby w pełni docenić materiał w tego wykładu, zalecamy następujące wymagania:

M_W04 - zna biegle co najmniej jeden język programowania oraz biblioteki algorytmów i struktur danych; ma wiedzę na temat praktycznych uwarunkowań wydajnych implementacji algorytmów ­ K_W10.

M_U05 - umie znajdować niezbędne informacje w literaturze fachowej, bazach danych i innych źródłach, zna podstawowe czasopisma i konferencje naukowe w swojej specjalności ­ K_U13.

M_U03 - posługuje się bibliotekami algorytmów i struktur danych, w tym bibliotekami algorytmów numerycznych ­ K_U05.

M_U01 - potrafi opisywać algorytmy i struktury danych w sposób zrozumiały dla nie informatyków ­ K_U02.

M_K05 - Wytrwałość i konsekwencja: Pracuje systematycznie i posiada umiejętność pozytywnego podejścia do trudności stojących na drodze do realizacji założonego celu; dotrzymuje terminów ­ K_K08.

M_K04 - Komunikatywność: Skutecznie przekazuje innym swoje myśli w zrozumiały sposób; właściwie posługuje się terminologią fachową; potrafi nawiązać kontakt w obrębie swojej dziedziny i z osobą reprezentującą inną dziedzinę ­ K_K05.

M_K03 - Sumienność i dokładność: Jest nastawiony na jak najlepsze wykonanie zadania; dba o szczegół; jest systematyczny ­ K_K04.

M_K02 - Analityczne myślenie: Samodzielnie i efektywnie pracuje z dużą ilością danych, dostrzega zależności i poprawnie wyciąga wnioski posługując się zasadami logiki ­ K_K03.

Dynamiczne pojawienie się dużych zbiorów danych w internecie spowodowała konieczność ich szybkiego przetwarzania, a umiejętność ta powoli staje się jednym z podstawowych wymogów pracy w wielu dużych firmach. Zagadnienie to jest wymagające i pozwala na praktyczne wykorzystanie wiedzy zdobytej z takich dziedzin jak algorytmika, przetwarzanie danych, eksploracja danych itp. Ponadto, ze względu na specyfikę problemu, istotnym elementem zagadnienia stała się nauka optymalizacji kodu eksplorującego dane z wykorzystaniem dostępnych narzędzi w rożnych kontekstach: obliczeń, zużycia energii, ograniczeniami związanymi z przesyłem i składowaniem danych. Wykład ten przedstawi pojawiające się w tej dziedzinie problemy oraz paradygmaty pozwalające na ich rozwiązanie.

Pełny opis: