Kakšna je razlika med HDFS in MapReduce - Razlika Med

Kakšna je razlika med HDFS in MapReduce

The glavna razlika med HDFS in MapReduce je to HDFS je porazdeljen datotečni sistem, ki zagotavlja visoko prepusten dostop do podatkov aplikacij, medtem ko je MapReduce programski okvir, ki zanesljivo obdeluje velike podatke na velikih grozdih.

Veliki podatki so zbirka velikih podatkovnih zbirk. Ima tri glavne lastnosti: volumen, hitrost in raznolikost. Hadoop je programska oprema, ki omogoča shranjevanje in upravljanje velikih podatkov. Gre za odprtokodni okvir, napisan v Javi. Poleg tega podpira porazdeljeno obdelavo velikih podatkovnih nizov po grozdih računalnikov. HDFS in MapReduce sta dva modula v arhitekturi Hadoop.

Pokrita ključna območja

1. Kaj je HDFS
- Opredelitev, funkcionalnost
2. Kaj je MapReduce
- Opredelitev, funkcionalnost
3. Kakšna je razlika med HDFS in MapReduce
- Primerjava ključnih razlik

Ključni pogoji

Big Data, HDFS, MapReduce


Kaj je HDFS

HDFS pomeniHadoop distribuirani datotečni sistem. To je distribuirani datotečni sistem Hadoop, ki se zanesljivo in učinkovito izvaja na velikih grozdih. Prav tako temelji na datotečnem sistemu Google (GFS). Poleg tega ima tudi seznam ukazov za interakcijo s datotečnim sistemom.

Poleg tega HDFS deluje po glavni, podrejeni arhitekturi. Glavno vozlišče ali vozlišče imena upravlja metapodatke datotečnega sistema, medtem ko pomožna vozlišča ali podatkovni beležki shranjujejo dejanske podatke.


Slika 1: Arhitektura HDFS

Poleg tega je datoteka v imenskem prostoru HDFS razdeljena na več blokov. Podatkovna vozlišča shranjujejo te bloke. Vozlišče imena preslika bloke na podatkovna vozlišča, ki obdelujejo operacije branja in zapisovanja z datotečnim sistemom. Poleg tega opravljajo naloge, kot so izdelava blokov, brisanje itd., Kot jih navaja vozlišče imena.

Kaj je MapReduce

MapReduce je programski okvir, ki omogoča pisanje aplikacij za obdelavo velikih podatkov hkrati na velikih grozdih strojne opreme. Ta okvir je sestavljen iz enega sledilnika glavnega opravila in enega sledilca opravil za posamezno vozlišče. Glavna enota izvaja upravljanje virov, razporejanje opravil na podrejene, spremljanje in ponovno izvajanje neuspelih nalog. Po drugi strani sledilnik opravil opravi naloge, ki jih naroči poveljnik, in pošilja informacije o stanju nalog nazaj materi nenehno.


Slika 2: Pregled MapReduce

Poleg tega obstajata dve nalogi, povezani z MapReduce. To so naloga zemljevida in naloga zmanjšanja. Naloga zemljevida prevzame vhodne podatke in jih razdeli na zaporedje ključev, parov vrednosti, medtem ko opravilo Zmanjšaj vzame izhodne podatke iz opravila zemljevida kot vhodne podatke in te podatkovne vezave poveže v manjše zapore. Poleg tega se naloga opravi pred nalogo zmanjšanja.

Razlika med HDFS in MapReduce

Opredelitev

HDFS je porazdeljen datotečni sistem, ki zanesljivo shranjuje velike datoteke v strojih v veliki skupini. Nasprotno je MapReduce programski okvir za preprosto pisanje aplikacij, ki obdelujejo velike količine podatkov vzporedno na velikih grozdih blagovne strojne opreme na zanesljiv in toleranten način. Te definicije pojasnjujejo glavno razliko med HDFS in MapReduce.

Glavna funkcionalnost

Druga razlika med HDFS in MapReduce je v tem, da HDFS zagotavlja visoko zmogljiv dostop do podatkov prek zelo razširljivih skupin Hadoop, medtem ko MapReduce izvaja obdelavo velikih podatkov.

Zaključek

Na kratko, HDFS in MapReduce sta dva modula v arhitekturi Hadoop. Glavna razlika med HDFS in MapReduce je v tem, da je HDFS porazdeljen datotečni sistem, ki zagotavlja visoko prepusten dostop do aplikacijskih podatkov, medtem ko je MapReduce programski okvir, ki zanesljivo obdeluje velike podatke na velikih grozdih.

Sklic:

1. »Vodnik za arhitekturo HDFS«, Apache Hadoop,