Geschichte der Hadoop:

Geschichte von Hadoop:

Hadoop wurde vom Leunce-Erfinder Dough Cutting initiiert und 2006 erstmals veröffentlicht. Am 23. Januar 2008 wurde es zum Top-Level-Projekt der Apache Software Fundation. Nutzer sind unter anderem Facebook,Yahoo, IBM. Dough Cutting entwickelte zuerst Nutch. Hadoop wurd von Nutch abgeleitet.

Nutch:

Nutch ist ein Java-Framework für Internet-Suchmachine. Die Software ist Open-Source und wird innerhalb der Apache Software Fundation unter der Apache-Lizenz entwickelt. Nutch basiert u. a. auf Lucence (Stemming, Indexierung etc.), Solr (Webfunktionalitäten) und Hadoop(Skalierung).

Nutch wird zur Zeit in 2 Versionen gepflegt:

1.x: Ist ein fertiger Crawler, welcher eine sehr feine Konfiguration ermöglicht und auf die Datenstrukturen von Apache Hadoop setzt, er soll ideal für Batch-Verarbeitung sein.
2.x: Wird als Alternative zur Version 1.x angeboten, der Hauptunterschied liegt im Speicherbereich, dieser wurde abstrahiert und nutzt Apache Gora um Objekte zu verknüpfen. So wurde die Flexibilität erhöht, was (z. B. Status, Inhalte, Links, verarbeiteter Text …) gespeichert werden kann und wie die Speicherung z. B. in NoSQL-Lösungen erfolgt.

Ein Hadoop–Cluster ist ein Zusammenschluss von Servern zu einem Computer-Cluster, was die Speicherung und Analyse von enormen Datenmengen ermöglicht. Durch die verteilte Rechenleistung wird besonders rechenintensive Datenverarbeitung möglich. Hadoop ist eine kostenlose Software.

Stärken
- Sehr große Dateien: Hunderte TB
- Skaliert auf tausende Standard-Server
- Automatische Verteilung und Replikation
- Ausfallsicher: Fehler sind Regel
Schwächen
- Physische Lokationen von Blöcken intransparent
- eingeschränktes Optimierungspotenzial für höhere Dienste (wie Hive etc.)

Hadoop ermöglicht Verwaltung und Verarbeitung der Daten mit niedrigen Latenzzeiten.

Hadoop Architektur:

HDFS – Hadoop Distributed File System

Das Herzstück von Hadoop ist das verteilte Dateisystem Hadoop Distributed File System (HDFS). HDFS ist ein hochverfügbares, verteiltes Dateisystem zur Speicherung von sehr großen Datenmengen, welches in Clustern von Servern organisiert ist. Dabei werden die Daten auf mehreren Rechnern (Nodes) innerhalb eines Clusters abgespeichert, das passiert in dem die Dateien in Datenblöcken mit fester Länge zerlegt und redundant auf den Knoten verteilt.

MapReduce:

Bei MapReduce handelt es sich um ein von Google entwickeltes Verfahren, mit dem sich große strukturierte oder unstrukturierte Datenmengen mit hoher Geschwindigkeit verarbeiten lassen. MapReduce nutzt die Parallelisierung von Aufgaben und deren Verteilung auf mehrere Systeme.Ursprüngliche wurde das MapReduce-Verfahren 2004 von Google für die Indexierung von Webseiten entwickelt. MapReduce ist patentiert und kann als Framework für Datenbanken verwendet werden. Das Framework eignet sich sehr gut für die Verarbeitung von großen Datenmengen (bis zu mehreren Petabytes), wie sie im Big-Data-Umfeld auftreten.

Quelle:

https://www.bigdata-insider.de/was-ist-mapreduce-a-624936/

https://datasolut.com/apache-hadoop-einfuehrung/

https://de.wikipedia.org/wiki/Nutch

https://de.wikipedia.org/wiki/Apache_Hadoop

Ali Albaalbaki

Translate

Dieses Blog durchsuchen