DATA WARE HOUSING
Data warehouse
Data warehouse adalah
database yang berisi data dari beberapa system operasional yang terintegrasi
dan terstruktur sehingga dapat digunakan untuk mendukung analisa dan proses
pengambilan keputusan dalam bisnis.
Data warehouse didesain untuk kita bisa melakukan
query secara cepat. Informasi diturunkan dari data lain, dilakukan rolling up
untuk dijadikan ringkasan, dilakukan operasi drilling down untuk mendapatkan
informasi lebih detail, atau melihat pola yang menarik atau melihat trend
(kecenderungan).
Karakteristik dari data warehouse
adalah sebagai berikut :
1.
Subject Oriented
(Berorientasi subject)
Data warehouse berorientasi subject artinya data warehouse
didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam
organisasi,bukan pada proses atau fungsi aplikasi tertentu. Data warehouse
diorganisasikan disekitar subjek-subjek utama dari
perusahaan(customers,products dan sales) dan tidak diorganisasikan pada
area-area aplikasi utama (customer invoicing,stock control dan product sales).
Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan data-data
yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi yang
berorientasi terhadap data.
2.
Integrated (Terintegrasi)
Data Warehouse dapat
menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu
format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan
demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan
yang menunjang keseluruhan konsep data warehouse itu sendiri.. Syarat integrasi
sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan
variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean
dan konsisten dalam atribut fisik dari data.
3.
Time-variant (Rentang Waktu)
Seluruh data pada data warehouse dapat dikatakan akurat atau
valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan
dalam mengukur keakuratan suatu data warehouse, kita dapat menggunakan cara
antara lain :
•
Cara yang paling sederhana
adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5
sampai 10 tahun ke depan.
•
Cara yang kedua, dengan
menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse baik
implicit maupun explicit secara explicit dengan unsur waktu dalam hari, minggu,
bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada
setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara
implisit didalam data tersebut.
•
Cara yang ketiga,variasi
waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang.
Snapshot merupakan tampilan dari sebagian data tertentu sesuai keinginan
pemakai dari keseluruhan data yang ada bersifat read-only.
4.
Non-Volatile
Karakteristik keempat dari data warehouse adalah
non-volatile,maksudnya data pada data warehouse tidak di-update secara real
time tetapi di refresh dari sistem operasional secara reguler. Data yang baru
selalu ditambahkan sebagai suplemen bagi database itu sendiri dari pada
sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru
ini, kemudian secara incremental disatukan dengan data sebelumnya.
Berbeda dengan database operasional yang dapat melakukan
update,insert dan delete terhadap data yang mengubah isi dari database
sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu
loading data (mengambil data) dan akses data (mengakses data warehouse seperti
melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan
updating data).
Konsep dan tujuan data warehouse
Perubahan pada fokus perkembangan komputasi
- Perkembangan
komputasi pada awalnya terfokus pada kebutuhan operasional.
Ada sebuah istilah dinamakan Business Cycle, dimana kalangan enterprise harus melakukannya - Operational : kegiatan bisnis yang berjalan sehari-hari
- Tactical : kebijakan dan pemantauan kegiatan operasional
- Strategic : visi dan tujuan organisasi
- Kebutuhan
yang membutuhkan keputusan tidak dapat sepenuhnya diantisipasi
Para pembuat keputusan membutuhkan analisis terhadap data untuk memanfaatkan peluang yang ada. Mereka menganalisis tren yang terjadi pada sebuah situasi bisnis untuk mengambil keuntungan, menambah profit, dan mengurangi cost. - Sistem
operasional gagal untuk menyediakan informasi berupa keputusan
Sistem operasional memiliki fokus untuk merekam dan menyediakan layanan untuk berbagai macam transaksi bisnis. Para pembuat keputusan membutuhkan sebuah decision information secepat mungkin sedangkan bagi para IT profesional, untuk men-extract data menjadi sebuah information decision dari sistem operasional yang berbeda-beda memerlukan waktu yang lama. - Sebuah
sistem decision dibuat untuk memenuhi kebutuhan information decision.
Sejak itulah perkembangan data warehouse dimulai. Dari masa yang dinamakan “bleeding edge” hingga sekarang.
Tujuan Data Warehouse
1.
Menyediakan
kalangan bisnis untuk mengakses data Data warehouse menyediakan layanan
sehingga kalangan bisnis dapat mengakses data, yang sebenarnya rumit dan sulit
dipahami, dengan cukup mudah.
2.
Menyediakan
data yang valid. Sebagai contoh kasus, customer bukan merupakan sebuah istilah
yang diberikan kepada semua klien. Ada sebuah patokan dimana klien pantas
diberi title customer atau tidak. Dengan adanya data warehouse, sebuah title
customer dapat ditentukan mungkin dari jumlah total pembelian atau faktor
lainnya.
3. Untuk menyimpan data yang lama
dengan akurat. Hal ini sangat diperlukan ketika diperlukan sebuah perbandingan
antara laporan sekarang dengan yang lalu.
4. Slice and Dice data. Sebuah
ketersediaan data detail seperti yang dicontohkan gambar diatas dapat
meningkatkan bisnis analisis dengan mengurangi waktu dan usaha yang diperlukan
untuk mengumpulkan data kembali.
5. Memisahkan antara proses analisis
dan operasional. Biasanya data warehouse diperlukan untuk mendukung proses
analisis karena sifatnya yang cepat dalam mengolah data yang sangat banyak walaupun
dengan kemampuan terbatas. Beberapa sifat antara lain : Proses analisis ->
READ Proses operasional -> READ, WRITE, UPDATE
6. Mendukung re-engineering pada decisional
process Dengan sifatnya yang memfokuskan pada pengambilan keputusan bisnis,
data warehouse adalah sebuah sistem yang ideal apabila diperlukan
re-engineering pada proses pengambilan keputusan bisnis.
Komponen data warehouse :
a) Source system
adalah data source atau objek yang menjadi sumber data dari proses keseluruhan.
Source sistem merupakan sistem OLTP yang berisi data yang ingin di muat ke
dalam data warehouse.
b)
Online Transaction Processing (OLTP) adalah suatu
sistem yang fungsi utamanya untuk menangkap dan menyimpan transaksi bisnis.
data source system diuji menggunakan satu data profiler untuk dapat memahami
karakteristik dari data.
c)
Data profiler adalah suatu alat yang
punya kemampuan untuk menganalisis data, seperti menemukan berapa banyak baris
yang terdapat di dalam setiap tabel, berapa banyak baris yang mengandung nilai
NULL, dan seterusnya.
d)
ETL adalah singkatan dari extract,
transform, load. Fungsinya adalah melakukan ekstraksi dari data source,
kemudian melakukan transformasi data, sebelum me-load-nya ke data store tujuan.
Sistem ETL kemudian diintegrasikan, bertransformasi, dan memuat data ke dalam
satu dimensional data store (DDS).
e)
DDS adalah database yang menyimpan
data dari data warehouse dengan format yang berbeda dibandingkan OLTP. Data
diambil dari source sistem ke DDS dan kemudian melakukan query di DDS. Mengapa
query tidak dilakukan langsung di source system? hal ini karena pada DDS data
disusun pada satu format dimensional sehingga menjadi lebih cocok untuk di
analisa. alasan kedua adalah karena DDS mengandung data terintegrasi dari
beberapa source system.
f)
Ketika sistem ETL memuat data ke dalam
DDS, aturan kualitas data melakukan berbagai pengecekan kualitas data. Data
yang buruk diletakkan ke dalam database data quality (DQ)
untuk dilaporkan kemudian diperbaiki pada source sistem. Data yang buruk juga
dapat secara otomatis terkoreksi atau di toleransi jika data tersebut berada
pada batas tertentu.
g)
Sistem ETL diatur oleh sistem
control, berdasarkan urutan, ketentuan, dan logika penyimpanan
pada metadata
h)
Metadata adalah satu database
yang berisi informasi tentang struktur data, arti data, pemakaian data, aturan
kualitas data, dan informasi lain seputar data.
i)
Sistem audit mencatat sistem
operasi dan pemakaiannya ke dalam database metadata. Sistem audit menjadi
bagian dari sistem ETL yang memonitor aktivitas operasional dari proses ETL dan
mencatat statistik operasional mereka. Ini dipergunakan untuk memahami apa yang
terjadi selama ETL berjalan. Pengguna mempergunakan berbagai alat seperti
spreadsheet, pivot tables, reporting tools, dan query SQL untuk mendapat
kembali dan menganalisis data pada DDS.
j)
Beberapa aplikasi beroperasi pada satu
format database multidimensional. Untuk aplikasi ini, data yang terdapat di
dalam DDS diisi ke dalam database multidimensional (MDB), yang
juga dikenal sebagai cubes (dadu). Database multidimensional (MDB) adalah suatu format dari database dimana data
disimpan dalam sel-sel dan posisi dari masing-masing sel didefinisikan oleh
sejumlah variabel yang disebut dimensi. Masing-masing sel mewakili satu event
bisnis, dan nilai dari dimensi memperlihatkan kapan dan dimana event ini
terjadi.Aplikasi seperti aplikasi analitik, data mining, scorecards,
dashboards, multidimensional reporting tools dan aplikasi BI lainnya dapat
menerima kembali data secara interaktif dari database multidimensional. Mereka
menerima kembali data untuk menghasilkan berbagai fitur dan hasil yang
memungkinkan pengguna untuk memperoleh satu pemahaman lebih dalam tentang bisnis
mereka.
Arsitektur data warehouse
1.
Operational
System
Berfungsi mejadi wadah ataupun lapisan pertama untuk
menyediakan software yang mengambil ataupun memberikan Sumber data dari
data warehouse serta dapat diambil langsung dari mainframe, basis data
relasional seperti Oracle, Ms SQL server dan sebagainya. Selain itu dapat
melalui Operational Data Source(ODS). ODS menampung data yang diekstrak
dari sistem utama atau sumber-sumber data yang ada dan kemudian data hasil
ekstrasi tersebut dibersihkan.
2.
Flat
File
Flat File Merupakan Kumpulan data yang diakses secara
periodic. CSV (Comma Separated Value) pada Microsoft Excel, sebagai
Contohnya, dan merupakan sebuah flat file. Flat file tidak melakukan
hubungan (relationship) dengan tabel lainnya yang mengandalkan perintah khusus
untuk digunakan. Oleh karena itu penggunaan flat file banyak digunakan
pada aplikasi yang membutuhkan database tunggal dan sederhana.
3. Meta Data
metadata adalah informasi yang ditanam pada sebuah file yang
isinya berupa penjelasan tetang file tersebut. misal pada perusahaan lampu
Philips terdapat item barang jenis tertentu, untuk mengetahui jenis item
lampu tertentu maka diperlukan gambar dari item lampu tersebut untuk
mendapatkan informasi mengenai spesifikasi item lampu tersebut melalui informasi
inti kan adalah gambar tersebut. namun bagaimana dengan informasi yang menjelaskan
gambar tersebut (kapan produksi lampu ini dibuat, berapa harga
modalnya, bagaimana bentuk lampunya, serta informasi lainnya) informasi
yang menjelaskan lampu inilah yang disebut metadata.
4.
Summary
Data
Summary Data merupakan Sekumpulan Ringkasan sejumlah data
pada sebuah item barang, sehingga Data-data yang terkait tentang
jenis/item barang itu akan teringkas melalui spefikasi tulisan maupun
gambar ataupun hal-hal yang berkaitan dengan jenis/item barang tersebut
untuk kemudian diproses untuk dismpan dalam data yang bernama Summary
Data tersebut. Atau Lebih Disebut Data Operasioal dikumpulkan (diringkas)
kemudian dimapping kedalam format untuk pengambilan keputusan
5.
Raw
Data
RAW Data adalah Data ‘murni’ hasil tangkapan dari sensor
digital yang sama sekali belum disentuh oleh kompresi atau pun interpolasi
apapun! Jadi datanya pun ‘fresh from the oven‘, belum ada data yang hilang
karena kompresi, belum ada keputusan processing apapun yangdiambil. Apa yang
dilihat/ditangkap oleh sensor digital, itulah yang ada di data RAWnya.
Manfaat dari keberhasilan pelaksanaan
data warehouse meliputi :
•
Peningkatan Kecerdasan Bisnis
•
Peningkatan Permintaan dan Kinerja Sistem
•
Business Intelligence dari Beberapa Sumber
•
Akses tepat waktu untuk data
•
Peningkatan Kualitas Data dan Konsistensi
•
Intelijen Sejarah
•
High Return on Investment
Pengembangan
data warehouse
Bergegas ke
pengembangan data warehouse , personil sistem informasi sering menemukan
kendala " on the fly " , menyebabkan jadwal dan anggaran biaya untuk
tumbuh secara eksponensial .
• pengembang
Data warehouse harus menjadi akrab dengan tantangan potensi untuk sukses
penyebaran data warehouse .
• Ketika
dibiarkan, tantangan ini bisa menjadi hambatan penuh , membawa pengembang untuk
berlutut dan skala besar produksi data warehouse tersendat-sendat.
• Beberapa
tantangan yang dihadapi pengembang data warehouse adalah:
1.
Complex extract , Transformasi dan beban Karakteristik
2.
Immense volume Data Harian
3.
Load Metodologi ( Beban Control dan
Audit )
4.
Data Gudang Recovery ( Pemulihan Beban
)
5.
Data Gudang Validasi
6.
Data Gudang Baca Kinerja
7.Metadata manajemen
Ada empat tugas yang bisa
dilakukan dengan adanya data warehouse :
1.
Pembuatan laporan
Pembuatan laporan merupakan
salah satu kegunaan data warehouse yang paling umum dilakukan. Dengan
menggunakan query sederhana didapatkan laporan perhari, perbulan, pertahun atau
jangka waktu kapanpun yang diinginkan.
2.
On-Line Analytical Processing (OLAP)
OLAP mendayagunakan konsep
data multi dimensi dan memungkinkan para pemakai menganalisa data sampai
mendetail, tanpa mengetikkan satupun perintah SQL. Hal ini dimungkinkan karena
pada konsep multi dimensi, maka data yang berupa fakta yang sama bisa dilihat
dengan menggunakan fungsi yang berbeda. Fasilitas lain yang ada pada sofware
OLAP adalah fasilitas rool-up dan drill-down. Drill-down adalah kemampuan untuk
melihat detail dari suatu informasi dan roll-up adalah kebalikannya.
3. Data
mining
Data mining merupakan
proses untuk menggali pengetahuan dan informasi baru dari data yang berjumlah
banyak pada data warehouse, dengan menggunakan kecerdasan buatan (Artificial
Intelegence), statistik dan matematika. Data mining merupakan teknologi yang
diharapkan dapat menjembatani komunikasi antara data dan pemakainya.
Beberapa solusi yang diberikan data mining antara
lain :
1.
Menebak target pasar
Data mining dapat mengelompokkan (clustering) model-model
pembeli dan melakukan klasifikasi terhadap setiap pembeli dan melakukan
klasifikasi terhadap setiap pemebeli sesuai dengan karakteristik yang
diinginkan.
2.
Melihat pola beli dari
waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli dari waktu
ke waktu.
3.
cross-market analysis
Data mining dapat dimanfaatkan untuk melihat hubungan antara
satu produk dengan produk lainnya.
4.
Profil pelanggan
Data mining bisa membantu pengguna untuk melihat profil pembeli
sehingga dapat diketahui kelompok pembeli tertentu cenderung kepada suatu
produk apa saja.
5.
Informasi summary
Data mining dapat membuat laporan summary yang bersifat multi
dimensi dan dilengkapi dengan informasi statistik lainnya.
4. Proses
informasi executive
Data warehouse dapat membuat
ringkasan informasi yang penting dengan tujuan membuat keputusan bisnis, tanpa
harus menjelajahi keseluruhan data. Dengan menggunakan data warehouse segala
laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara
lengkap, sehingga mempermudah proses pengambilan keputusan. Informasi dan data
pada laporan data warehouse menjadi target informative
bagi user.
Peranan Penting OLTP VS OLAP dalam Data Warehouse :
• OLTP (Online Transactional
Processing / OLTP)
Sistem informasi adalah sekumpulan fungsi yang
bekerja secara bersama-sama dalam mengelola, mengumpulkan, menyimpan, memproses
serta mendistribusikan informasi. Dalam dunia kerja mengolah sistem informasi
harus dibuat semudah mungkin, sehingga user dapat menggunakan hasil dari sistem
informasi secara mudah. Untuk itu, sistem informasi haruslah efisien,
transparan dan terintegarsi. Untuk megolah suatu sistem informasi dibutuhkan
salah satu komponen yaitu sistem informasi manajemen yang berbasis komputer
yang dinamakan sistem basis data (database).
Sistem basis data mempunyai peran penting sebagai tempat pusat
penyimpanan data yang mendukung kegiatan operasional (Online Transactional
Processing / OLTP).
Ciri-ciri umum sistem OLTP adalah :
• Mendukung jumlah pengguna yang banyak yang sering menambah dan
merubah data transaksi
• Mengandung data dalam jumlah besar, termasuk di dalamnya
validasi data transaksi
• Memiliki struktur yang kompleks dan rumit
• Diarahkan secara maksimal untuk melayani aktivitas transaksi
harian
• Menyediakan teknologi infrastruktur yang mendukung operasional
transaksi data dalam perusahaan
Sebuah
sistem OLTP yang umum memiliki karakteristik seperti jumlah user yang
sangat banyak yang secara serentak mengolah dan menambah data. Dalam hal ini,
apabila banyak user yang melakukan pengolahan dan penambahan data akan
membebani program, saat database berkembang semakin banyak dan kompleks, waktu
respon akan semakin berkurang disebabkan bertumpuknya pemakaian sumber daya
yang tersedia, sehingga untuk membuat suatu keputusan sangatlah susah dan
membutuhkan waktu yang lama dan untuk membuat query satu persatu pada sumber
data tidak praktis dan efisien, apalagi sumber data yang ada menyimpan current
(arus data), sedangkan data yang dibutuhkan oleh para pembuat keputusan adalah
data-data historis.
Data warehouse menyediakan sebuah interface
gabungan terhadap data, sehingga query-query pendukung keputusan mudah ditulis.
Data warehouse juga dapat menyimpan sumber data yang heterogen (data yang
tersebar pada database Online Transactional Processing) dipindahkan ke data
yang homogen, sehinggga dengan kemampuan akses data warehouse maka upaya untuk
pendukung keputusan dapat diakses dengan cepat, efisien dan akurat. Hal penting
untuk menjaga Data Warehouse adalah dengan selalu memantau kekinian data yang tersimpan,
dengan membuat katalog data dan disimpan secara terpisah dalam suatu sistem
repositori meta data yang menyimpan informasi sumber data terkini.
• OLAP (OnLine Analytical Processing)
OLAP (OnLine Analytical Processing) adalah jenis
perangkat lunak yang digunakan untuk melakukan permintaan terhadap data dalam
bentuk yang kompleks dan bersifat sementara serta sewaktu-waktu. OLAP
memanipulasi dan menganalisis data bervolume besar dari berbagai perspektif
(multidimensi). Oleh karena itu OLAP seringkali disebut analisis data
multidimensi.
OLAP bekerja dengan data dalam bentuk multidimensi. Yang umum,
bentuk tiga dimensi diwujudkan ke dalam bentuk kubus data.
Tujuan OLAP adalah menggunakan informasi dalam
sebuah basis data (data warehouse) untuk memandu keputusan-keputusan yang
strategic. Beberapa contoh permintaan yang ditangani oleh OLAP:
a.
Berapa jumlah penjualan
dalam kuartal pertama?
b.
Berapa jumlah penjualan per
kuartal untuk masing-masing kota?
c.
Tampilkan 5 produk dengan
total penjualan tertinggi pada kuartal pertama.
Kadangkala permintaan yang ditangani OLAP bisa
diselesaikan dengan pernyataan SQL sederhana, tetapi dalam banyak kasus tidak
dapat diekspresikan dengan SQL. OLAP dapat digunakan untuk melakukan
konsolidasi, drill-down, dan slicing and dicing. Di bawah ini adalah kegunaan
dari konsolidasi, drill-down, dan slicing and dicing yaitu:
•
Konsolidasi
melibatkan pengelompokan data. Sebagai contoh kantor-kantor
cabang dapat dikelompokkan menurut kota atau bahkan propinsi. Transaksi
penjualan dapat ditinjau menurut tahun, triwulan, bulan, dan sebagainya.
Kadangkala istilah rollup digunakan untuk menyatakan konsolidasi.
•
Drill-down
Drill-down adalah suatu bentuk yang merupakan kebalikan dari
konsolidasi, yang memungkinkan data yang ringkas dijabarkan menjadi data yang
lebih detail. Sebagai contoh, mula-mula data yang tersaji didasarkan pada
kuartal pertama. Jika dikehendaki, data masing-masing bulan pada kuartal
pertama tersebut bisa diperoleh, sehingga akan tersaji data bulan Januari,
Februari, Maret, dan April.
•
Slicing and dicing (atau
dikenal dengan istilah pivoting)
Untuk menjabarkan pada kemampuan untuk melihat data dari
berbagai sudut pandang. Data dapat diiris-iris atau dipotong-potong berdasarkan
kebutuhan. Sebagai contoh, dapat diperoleh data penjualan berdasarkan semua
lokasi atau hanya pada lokasi-lokasi tertentu.
Adapun karakterisik aplikasi-aplikasi OLAP:
1
permintaan data sangat
kompleks,
2
jarang ada pemutakhiran,
dan
3
transaksi mengakses banyak
bagian dalam basis data.
its very useful for data mining all your information very helpful..
BalasHapus2020 Data Mining Projects Chennai