Platforma przetwarzania Big Data — Hadoop

By Weronika Skotnicka

Hadoop implementuje rozproszony system plików Hadoop. HDFS ma wysoką odporność na uszkodzenia. Został zaprojektowany do wdrożenia na tanim sprzęcie. Zapewnia wysoką przepustowość dostępu do danych aplikacji. Nadaje się do aplikacji z dużymi zestawami danych. HDFS łagodzi wymagania POSIX. Może uzyskiwać dostęp do danych w systemie plików w postaci dostępu strumieniowego.

W strukturze Hadoop istnieją dwa podstawowe projekty: HDFS i MapReduce. HDFS służy do przechowywania ogromnych danych w erze big data. MapReduce służy do obliczania danych przechowywanych w HDFS. Współpracują ze sobą.

Hadoop był początkowo pakietem modelu programowania Google MapReduce. Framework MapReduce firmy Google może dezasemblować aplikacje. Wiele instrukcji można wykonać razem po demontażu. W ten sposób duże zbiory danych mogą być uruchamiane na wielu węzłach obliczeniowych. Hadoop na początku był związany tylko z indeksowaniem sieci. Dziś stał się liderem w analizie big data. Wiele firm zaczęło dostarczać projekty oparte na Hadoop. Takie jak oprogramowanie biznesowe, wsparcie, usługi i szkolenia.

Cel Hadoopa na początku jego projektowania był jasny. Wysoka niezawodność, wysoka skalowalność, wysoka odporność na błędy i wysoka wydajność. Te doskonałe właściwości sprawiły, że Hadoop stał się lubiany przez wiele dużych firm, gdy tylko się pojawił. Jednocześnie wzbudził powszechne zaniepokojenie w dziedzinie badań. Od narodzin Hadoopa do chwili obecnej jest szeroko stosowany w dziedzinie Internetu. Niektóre przypadki są następujące. Yahoo używa 4000-węzłowego klastra Hadoop do obsługi systemów reklamowych i wyszukiwania w sieci. Facebook prowadzi magazyn danych dziennika Hadoop przy użyciu klastra 1000 węzłów. Wspieraj na nim analizę danych i uczenie maszynowe. Baidu używa Hadoop do przetwarzania do 200 TB danych tygodniowo. Przeprowadzanie analizy logów wyszukiwania i eksploracji danych stron internetowych.

Nie tylko duże przedsiębiorstwa stosują technologię Hadoop w swoich usługach. Niektóre firmy komercyjne oferujące rozwiązania Hadoop poszły w ich ślady. Wykorzystali własną technologię, aby zoptymalizować, ulepszyć i ponownie opracować Hadoop. Następnie te odtworzone produkty będą świadczyć usługi komercyjne Hadoop innym użytkownikom. Bardziej znaną firmą jest Cloudera, która powstała w 2008 roku. Specjalizuje się w sprzedaży i serwisie oprogramowania do zarządzania danymi opartego na Apache Hadoop. Ma nadzieję odegrać rolę podobną do RedHat w świecie Linuksa w dziedzinie dużych zbiorów danych. Firma wydała komercyjną wersję Cloudera Enterprise opartą na Apache Hadoop. Zapewnia wsparcie, konsultacje, szkolenia i inne usługi związane z Hadoop.

Powyższe jest krótkim wprowadzeniem do tego, czym jest Hadoop. Od narodzin Hadoop rozwija się. I nadal zaspokajaj potrzeby życia i pracy ludzi. Jego wygląd to wytwór ery big data. Pomaga nam szybko i wygodnie przetwarzać duże zbiory danych. Usprawnij dzielenie się wynikami dużych zbiorów danych między sobą. Poprawia zwrot z inwestycji całego łańcucha zarządzania pracą i łańcucha przemysłowego.