Kakšna je razlika med ETL in podatkovnim skladiščem - Razlika Med

Kakšna je razlika med ETL in podatkovnim skladiščem

The glavna razlika med ETL in Data Warehouse je, da ETL je proces pridobivanja, preoblikovanja in nalaganja podatkov za shranjevanje v podatkovnem skladišču, medtem ko je podatkovno skladišče osrednja lokacija, ki se uporablja za shranjevanje konsolidiranih podatkov iz več podatkovnih virov.

Podatkovno skladišče je sistem, ki pomaga analizirati podatke, jih poročati in vizualizirati za sprejemanje poslovnih odločitev. Je predmetno usmerjen, integriran, časovno variabilen in neobstojen. Vendar pa je pred shranjevanjem podatkov v podatkovno skladišče treba izvesti več korakov. Ta proces se imenuje ETL. Vključuje ekstrakcijo podatkov, preoblikovanje in končno, njihovo nalaganje v podatkovno skladišče. Zato je razlika med ETL in Data Warehouse povezana s temi osnovnimi koncepti.

Pokrita ključna območja

1. Kaj je ETL
- Opredelitev, funkcionalnost
2. Kaj je skladišče podatkov
- Opredelitev, funkcionalnost
3. Kakšna je razlika med ETL in podatkovnim skladiščem
- Primerjava ključnih razlik

Ključni pogoji

Skladišče podatkov, ETL


Kaj je ETL

ETL pomeni Izvleček, preoblikovanje in nalaganje. V tem procesu se podatki najprej ekstrahirajo iz več podatkovnih virov. Nato se pretvori in naloži v podatkovno skladišče. ETL označuje celoten proces. IBM-ova stopnja podatkov, Informatica in Microsoftove storitve integracije so nekatera ETL orodja na ravni podjetja. Oglejmo si vsak korak ETL podrobneje.

Ekstrakcija

Ekstrakcija je prvi korak. Vključuje pridobivanje podatkov iz različnih podatkovnih virov, kot so podatkovne baze. Pomembno dejstvo, ki ga je treba upoštevati pri izvajanju ekstrakcije, je, da ne vpliva na zmogljivost ali odzivni čas izvirnega podatkovnega vira. Zato obstajajo različne strategije za ekstrakcijo podatkov.

Polna ekstrakcija - To vključuje pridobivanje vseh podatkov iz vseh virov podatkov. Glavna uporaba te strategije je naložiti podatkovno skladišče v začetni fazi ali ga naložiti, ko je težko prepoznati spremenjene podatke.

Delna ekstrakcija (z obvestilom o posodobitvi) - Ta strategija je lažja in hitrejša od popolne ekstrakcije. Vključuje pridobivanje samo spremenjenih podatkov.

Delna ekstrakcija (brez obvestila o posodobitvi) - Vključuje pridobivanje podatkov na podlagi nekaterih ključnih funkcij. Na primer, če so bili podatki že včeraj izčrpani, je mogoče izpisati današnje podatke in identificirati spremembe v njih.

Transformacija

Izpisani podatki so neobdelani podatki, zato ni zelo uporaben. Zato je transformacija podatkov izvedena v naslednjem koraku. Vključuje čiščenje, preslikavo in pretvorbo podatkov. Osnovne naloge preoblikovanja so naslednje:

Izbira - Izbira zahtevanih podatkov

Preslikava - Iskanje podatkov iz različnih datotek za iskanje in ujemanje podatkov, ki jih je treba preoblikovati

Čiščenje podatkov - čiščenje podatkov za njihovo standardizacijo

Povzetek - Združevanje in konsolidiranje podatkov

Glavne naloge preoblikovanja podatkov so naslednje.

Standardizacija - Ker podatki prihajajo iz različnih virov, zahteva standardizacijo

Pretvorba nabor znakov in obdelava kodiranja - Pretvarjanje podatkov v definirano kodiranje

Izračun vrednosti - Izračunavanje in izpeljevanje novih stolpcev iz obstoječih stolpcev.

Razlita in združena polja - Razdelitev polja na več polj ali združevanje več polj v eno polje na podlagi zahtev.

Pretvorba merskih enot - vključevanje časovnih pretvorb podatkov itd.

Povzetek - Združevanje in konsolidiranje podatkov.

Brisanje podvajanja - Brisanje podvojenih podatkov, prejetih iz več virov.


nalaganje

To je postopek pridobivanja pripravljenih podatkov in shranjevanja v podatkovnem skladišču. Obstajajo različne tehnike nalaganja.

Začetna obremenitev - Prvo nalaganje podatkovnega skladišča.

Inkrementalno obremenitev - periodične uporabe tekočih sprememb.

Popolna osvežitev - Popolno brisanje vsebine ene ali več tabel in ponovno nalaganje s svežimi podatki.

Kaj je skladišče podatkov

Podatkovno skladišče je sistem, ki podpira proces poslovne inteligence. Pretvori podatke v pomembne informacije za analizo poslovanja. Zato je dragocen vir za upravljanje organizacije pri sprejemanju odločitev.

Poleg tega ima organizacija različne baze podatkov, kot sta MySQL in MSSQL. Vsi ti podatki so pridobljeni, preoblikovani in naloženi v podatkovno skladišče. Nato so podatki integrirani in obdelani. Končno, analitiki podatkov, znanstveniki za podatke in upravljavci uporabijo te podatke za vpogled v poslovanje.


Poleg tega so podatki v podatkovnem skladišču razdeljeni na podatkovne martine. Vsak od njih vsebuje podatke za določene uporabnike. Izboljšujejo varnost in integriteto podatkov. Običajno se podatkovno skladišče nahaja na ločeni lokaciji od običajnih operativnih baz podatkov.

Razlika med ETL in podatkovnim skladiščem

Opredelitev

ETL je proces pridobivanja, preoblikovanja in nalaganja podatkov v okolje podatkovnega skladišča. Nasprotno pa je podatkovno skladišče združeno skladišče vseh podatkov, ki jih zberejo različni operacijski sistemi podjetja. To je torej osnovna razlika med ETL in podatkovnim skladiščem.

Uporaba

ETL je proces, ki se uporablja za spreminjanje podatkov, preden jih shranite v podatkovno skladišče. Za sprejemanje poslovnih odločitev se uporablja podatkovno skladišče. Poleg tega krepi kakovost in doslednost podatkov ter izboljšuje poslovno inteligenco. Zato obstaja razlika med ETL in podatkovnim skladiščem na podlagi individualne uporabe.

Zaključek

Osnovna razlika med ETL in podatkovnim skladiščem je, da je ETL proces pridobivanja, preoblikovanja in nalaganja podatkov za shranjevanje v podatkovno skladišče, medtem ko je podatkovno skladišče osrednja lokacija, ki se uporablja za shranjevanje konsolidiranih podatkov iz večih podatkovnih virov.

Sklic:

1. “3 - Vadnica ETL Izvleček preoblikovanja in nalaganja “, Vikram Takkar, 8. september 2015,