Vsebina
The glavna razlika med ETL in Data Warehouse je, da ETL je proces pridobivanja, preoblikovanja in nalaganja podatkov za shranjevanje v podatkovnem skladišču, medtem ko je podatkovno skladišče osrednja lokacija, ki se uporablja za shranjevanje konsolidiranih podatkov iz več podatkovnih virov.
Podatkovno skladišče je sistem, ki pomaga analizirati podatke, jih poročati in vizualizirati za sprejemanje poslovnih odločitev. Je predmetno usmerjen, integriran, časovno variabilen in neobstojen. Vendar pa je pred shranjevanjem podatkov v podatkovno skladišče treba izvesti več korakov. Ta proces se imenuje ETL. Vključuje ekstrakcijo podatkov, preoblikovanje in končno, njihovo nalaganje v podatkovno skladišče. Zato je razlika med ETL in Data Warehouse povezana s temi osnovnimi koncepti.
Pokrita ključna območja
1. Kaj je ETL
- Opredelitev, funkcionalnost
2. Kaj je skladišče podatkov
- Opredelitev, funkcionalnost
3. Kakšna je razlika med ETL in podatkovnim skladiščem
- Primerjava ključnih razlik
Ključni pogoji
Skladišče podatkov, ETL
Kaj je ETL
ETL pomeni Izvleček, preoblikovanje in nalaganje. V tem procesu se podatki najprej ekstrahirajo iz več podatkovnih virov. Nato se pretvori in naloži v podatkovno skladišče. ETL označuje celoten proces. IBM-ova stopnja podatkov, Informatica in Microsoftove storitve integracije so nekatera ETL orodja na ravni podjetja. Oglejmo si vsak korak ETL podrobneje.
Ekstrakcija
Ekstrakcija je prvi korak. Vključuje pridobivanje podatkov iz različnih podatkovnih virov, kot so podatkovne baze. Pomembno dejstvo, ki ga je treba upoštevati pri izvajanju ekstrakcije, je, da ne vpliva na zmogljivost ali odzivni čas izvirnega podatkovnega vira. Zato obstajajo različne strategije za ekstrakcijo podatkov.
Polna ekstrakcija - To vključuje pridobivanje vseh podatkov iz vseh virov podatkov. Glavna uporaba te strategije je naložiti podatkovno skladišče v začetni fazi ali ga naložiti, ko je težko prepoznati spremenjene podatke.
Delna ekstrakcija (z obvestilom o posodobitvi) - Ta strategija je lažja in hitrejša od popolne ekstrakcije. Vključuje pridobivanje samo spremenjenih podatkov.
Delna ekstrakcija (brez obvestila o posodobitvi) - Vključuje pridobivanje podatkov na podlagi nekaterih ključnih funkcij. Na primer, če so bili podatki že včeraj izčrpani, je mogoče izpisati današnje podatke in identificirati spremembe v njih.
Transformacija
Izpisani podatki so neobdelani podatki, zato ni zelo uporaben. Zato je transformacija podatkov izvedena v naslednjem koraku. Vključuje čiščenje, preslikavo in pretvorbo podatkov. Osnovne naloge preoblikovanja so naslednje:
Izbira - Izbira zahtevanih podatkov
Preslikava - Iskanje podatkov iz različnih datotek za iskanje in ujemanje podatkov, ki jih je treba preoblikovati
Čiščenje podatkov - čiščenje podatkov za njihovo standardizacijo
Povzetek - Združevanje in konsolidiranje podatkov
Glavne naloge preoblikovanja podatkov so naslednje.
Standardizacija - Ker podatki prihajajo iz različnih virov, zahteva standardizacijo
Pretvorba nabor znakov in obdelava kodiranja - Pretvarjanje podatkov v definirano kodiranje
Izračun vrednosti - Izračunavanje in izpeljevanje novih stolpcev iz obstoječih stolpcev.
Razlita in združena polja - Razdelitev polja na več polj ali združevanje več polj v eno polje na podlagi zahtev.
Pretvorba merskih enot - vključevanje časovnih pretvorb podatkov itd.
Povzetek - Združevanje in konsolidiranje podatkov.
Brisanje podvajanja - Brisanje podvojenih podatkov, prejetih iz več virov.
nalaganje
To je postopek pridobivanja pripravljenih podatkov in shranjevanja v podatkovnem skladišču. Obstajajo različne tehnike nalaganja.
Začetna obremenitev - Prvo nalaganje podatkovnega skladišča.
Inkrementalno obremenitev - periodične uporabe tekočih sprememb.
Popolna osvežitev - Popolno brisanje vsebine ene ali več tabel in ponovno nalaganje s svežimi podatki.
Kaj je skladišče podatkov
Podatkovno skladišče je sistem, ki podpira proces poslovne inteligence. Pretvori podatke v pomembne informacije za analizo poslovanja. Zato je dragocen vir za upravljanje organizacije pri sprejemanju odločitev.
Poleg tega ima organizacija različne baze podatkov, kot sta MySQL in MSSQL. Vsi ti podatki so pridobljeni, preoblikovani in naloženi v podatkovno skladišče. Nato so podatki integrirani in obdelani. Končno, analitiki podatkov, znanstveniki za podatke in upravljavci uporabijo te podatke za vpogled v poslovanje.
Poleg tega so podatki v podatkovnem skladišču razdeljeni na podatkovne martine. Vsak od njih vsebuje podatke za določene uporabnike. Izboljšujejo varnost in integriteto podatkov. Običajno se podatkovno skladišče nahaja na ločeni lokaciji od običajnih operativnih baz podatkov.
Razlika med ETL in podatkovnim skladiščem
Opredelitev
ETL je proces pridobivanja, preoblikovanja in nalaganja podatkov v okolje podatkovnega skladišča. Nasprotno pa je podatkovno skladišče združeno skladišče vseh podatkov, ki jih zberejo različni operacijski sistemi podjetja. To je torej osnovna razlika med ETL in podatkovnim skladiščem.
Uporaba
ETL je proces, ki se uporablja za spreminjanje podatkov, preden jih shranite v podatkovno skladišče. Za sprejemanje poslovnih odločitev se uporablja podatkovno skladišče. Poleg tega krepi kakovost in doslednost podatkov ter izboljšuje poslovno inteligenco. Zato obstaja razlika med ETL in podatkovnim skladiščem na podlagi individualne uporabe.
Zaključek
Osnovna razlika med ETL in podatkovnim skladiščem je, da je ETL proces pridobivanja, preoblikovanja in nalaganja podatkov za shranjevanje v podatkovno skladišče, medtem ko je podatkovno skladišče osrednja lokacija, ki se uporablja za shranjevanje konsolidiranih podatkov iz večih podatkovnih virov.
Sklic:
1. “3 - Vadnica ETL Izvleček preoblikovanja in nalaganja “, Vikram Takkar, 8. september 2015,