Jumat, 16 Oktober 2015

Data warehousing



DATA WARE HOUSING

Data warehouse
Data warehouse adalah database yang berisi data dari beberapa system operasional yang terintegrasi dan terstruktur sehingga dapat digunakan untuk mendukung analisa dan proses pengambilan keputusan dalam bisnis.
Data warehouse didesain untuk kita bisa melakukan query secara cepat. Informasi diturunkan dari data lain, dilakukan rolling up untuk dijadikan ringkasan, dilakukan operasi drilling down untuk mendapatkan informasi lebih detail, atau melihat pola yang menarik atau melihat trend (kecenderungan).
Karakteristik dari data warehouse adalah sebagai berikut :
1.   Subject Oriented (Berorientasi subject)
Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi tertentu. Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan(customers,products dan sales) dan tidak  diorganisasikan pada area-area aplikasi utama (customer invoicing,stock control dan product sales). Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi yang berorientasi terhadap data.
2.   Integrated (Terintegrasi)
Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri.. Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data.
3. Time-variant (Rentang Waktu)
Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan dalam mengukur keakuratan suatu data warehouse, kita dapat menggunakan cara antara lain :
                     Cara yang paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan.
                     Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut.
                     Cara yang ketiga,variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada bersifat read-only.
4. Non-Volatile
Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler. Data yang baru selalu  ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya.
Berbeda dengan database operasional yang dapat melakukan update,insert dan delete terhadap data yang mengubah isi dari database sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses data warehouse seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating data).
Konsep dan tujuan data warehouse
Perubahan pada fokus perkembangan komputasi
  1. Perkembangan komputasi pada awalnya terfokus pada kebutuhan operasional.
    Ada sebuah istilah dinamakan Business Cycle, dimana kalangan enterprise harus melakukannya
    1. Operational : kegiatan bisnis yang berjalan sehari-hari
    2. Tactical : kebijakan dan pemantauan kegiatan operasional
    3. Strategic : visi dan tujuan organisasi
  2. Kebutuhan yang membutuhkan keputusan tidak dapat sepenuhnya diantisipasi
    Para pembuat keputusan membutuhkan analisis terhadap data untuk memanfaatkan peluang yang ada. Mereka menganalisis tren yang terjadi pada sebuah situasi bisnis untuk mengambil keuntungan, menambah profit, dan mengurangi cost.
  3. Sistem operasional gagal untuk menyediakan informasi berupa keputusan
    Sistem operasional memiliki fokus untuk merekam dan menyediakan layanan untuk berbagai macam transaksi bisnis. Para pembuat keputusan membutuhkan sebuah decision information secepat mungkin sedangkan bagi para IT profesional, untuk men-extract data menjadi sebuah information decision dari sistem operasional yang berbeda-beda memerlukan waktu yang lama.
  4. Sebuah sistem decision dibuat untuk memenuhi kebutuhan information decision.
    Sejak itulah perkembangan data warehouse dimulai. Dari masa yang dinamakan “bleeding edge” hingga sekarang.
Tujuan Data Warehouse
1.      Menyediakan kalangan bisnis untuk mengakses data Data warehouse menyediakan layanan sehingga kalangan bisnis dapat mengakses data, yang sebenarnya rumit dan sulit dipahami, dengan cukup mudah.
2.      Menyediakan data yang valid. Sebagai contoh kasus, customer bukan merupakan sebuah istilah yang diberikan kepada semua klien. Ada sebuah patokan dimana klien pantas diberi title customer atau tidak. Dengan adanya data warehouse, sebuah title customer dapat ditentukan mungkin dari jumlah total pembelian atau faktor lainnya.
3.      Untuk menyimpan data yang lama dengan akurat. Hal ini sangat diperlukan ketika diperlukan sebuah perbandingan antara laporan sekarang dengan yang lalu.
4.      Slice and Dice data. Sebuah ketersediaan data detail seperti yang dicontohkan gambar diatas dapat meningkatkan bisnis analisis dengan mengurangi waktu dan usaha yang diperlukan untuk mengumpulkan data kembali.
5.      Memisahkan antara proses analisis dan operasional. Biasanya data warehouse diperlukan untuk mendukung proses analisis karena sifatnya yang cepat dalam mengolah data yang sangat banyak walaupun dengan kemampuan terbatas. Beberapa sifat antara lain : Proses analisis -> READ Proses operasional -> READ, WRITE, UPDATE
6.      Mendukung re-engineering pada decisional process Dengan sifatnya yang memfokuskan pada pengambilan keputusan bisnis, data warehouse adalah sebuah sistem yang ideal apabila diperlukan re-engineering pada proses pengambilan keputusan bisnis.
Komponen data warehouse :
a)      Source system adalah data source atau objek yang menjadi sumber data dari proses keseluruhan. Source sistem merupakan sistem OLTP yang berisi data yang ingin di muat ke dalam data warehouse.
b)      Online Transaction Processing (OLTP) adalah suatu sistem yang fungsi utamanya untuk menangkap dan menyimpan transaksi bisnis. data source system diuji menggunakan satu data profiler untuk dapat memahami karakteristik dari data.
c)      Data profiler adalah suatu alat yang punya kemampuan untuk menganalisis data, seperti menemukan berapa banyak baris yang terdapat di dalam setiap tabel, berapa banyak baris yang mengandung nilai NULL, dan seterusnya.
d)     ETL adalah singkatan dari extract, transform, load. Fungsinya adalah melakukan ekstraksi dari data source, kemudian melakukan transformasi data, sebelum me-load-nya ke data store tujuan. Sistem ETL kemudian diintegrasikan, bertransformasi, dan memuat data ke dalam satu dimensional data store (DDS).
e)      DDS adalah database yang menyimpan data dari data warehouse dengan format yang berbeda dibandingkan OLTP. Data diambil dari source sistem ke DDS dan kemudian melakukan query di DDS. Mengapa query tidak dilakukan langsung di source system? hal ini karena pada DDS data disusun pada satu format dimensional sehingga menjadi lebih cocok untuk di analisa. alasan kedua adalah karena DDS mengandung data terintegrasi dari beberapa source system.
f)       Ketika sistem ETL memuat data ke dalam DDS, aturan kualitas data melakukan berbagai pengecekan kualitas data. Data yang buruk diletakkan ke dalam database data quality (DQ) untuk dilaporkan kemudian diperbaiki pada source sistem. Data yang buruk juga dapat secara otomatis terkoreksi atau di toleransi jika data tersebut berada pada batas tertentu.
g)      Sistem ETL diatur oleh sistem control, berdasarkan urutan, ketentuan, dan logika penyimpanan pada metadata
h)      Metadata adalah satu database yang berisi informasi tentang struktur data, arti data, pemakaian data, aturan kualitas data, dan informasi lain seputar data.
i)        Sistem audit mencatat sistem operasi dan pemakaiannya ke dalam database metadata. Sistem audit menjadi bagian dari sistem ETL yang memonitor aktivitas operasional dari proses ETL dan mencatat statistik operasional mereka. Ini dipergunakan untuk memahami apa yang terjadi selama ETL berjalan. Pengguna mempergunakan berbagai alat seperti spreadsheet, pivot tables, reporting tools, dan query SQL untuk mendapat kembali dan menganalisis data pada DDS.
j)        Beberapa aplikasi beroperasi pada satu format database multidimensional. Untuk aplikasi ini, data yang terdapat di dalam DDS diisi ke dalam database multidimensional (MDB), yang juga dikenal sebagai cubes (dadu). Database multidimensional (MDB)  adalah suatu format dari database dimana data disimpan dalam sel-sel dan posisi dari masing-masing sel didefinisikan oleh sejumlah variabel yang disebut dimensi. Masing-masing sel mewakili satu event bisnis, dan nilai dari dimensi memperlihatkan kapan dan dimana event ini terjadi.Aplikasi seperti aplikasi analitik, data mining, scorecards, dashboards, multidimensional reporting tools dan aplikasi BI lainnya dapat menerima kembali data secara interaktif dari database multidimensional. Mereka menerima kembali data untuk menghasilkan berbagai fitur dan hasil yang memungkinkan pengguna untuk memperoleh satu pemahaman lebih dalam tentang bisnis mereka.
Arsitektur data warehouse

1.      Operational System
Berfungsi mejadi wadah ataupun lapisan pertama untuk menyediakan software yang mengambil ataupun memberikan Sumber data dari data warehouse serta dapat diambil langsung dari mainframe, basis data relasional seperti Oracle, Ms SQL server dan sebagainya. Selain itu dapat melalui Operational Data Source(ODS). ODS menampung data yang diekstrak dari sistem utama atau sumber-sumber data yang ada dan kemudian data hasil ekstrasi tersebut dibersihkan.
2.         Flat File
Flat File Merupakan Kumpulan data yang diakses secara periodic. CSV (Comma Separated Value) pada Microsoft Excel, sebagai Contohnya, dan merupakan sebuah flat file. Flat file tidak melakukan hubungan (relationship) dengan tabel lainnya yang mengandalkan perintah khusus untuk digunakan. Oleh karena itu penggunaan flat file banyak digunakan pada aplikasi yang membutuhkan database tunggal dan sederhana.
3.      Meta Data
metadata adalah informasi yang ditanam pada sebuah file yang isinya berupa penjelasan tetang file tersebut. misal pada perusahaan lampu Philips terdapat item barang jenis tertentu, untuk mengetahui jenis item lampu tertentu maka diperlukan gambar dari item lampu tersebut untuk mendapatkan informasi mengenai spesifikasi item lampu tersebut melalui informasi inti kan adalah gambar tersebut. namun bagaimana dengan informasi yang menjelaskan gambar tersebut (kapan produksi lampu ini dibuat, berapa harga modalnya, bagaimana bentuk lampunya, serta informasi lainnya) informasi yang menjelaskan lampu inilah yang disebut metadata.
4.      Summary Data
Summary Data merupakan Sekumpulan Ringkasan sejumlah data pada sebuah item barang, sehingga Data-data yang terkait tentang jenis/item barang itu akan teringkas melalui spefikasi tulisan maupun gambar ataupun hal-hal yang berkaitan dengan jenis/item barang tersebut untuk kemudian diproses untuk dismpan dalam data yang bernama Summary Data tersebut. Atau Lebih Disebut Data Operasioal dikumpulkan (diringkas) kemudian dimapping kedalam format untuk pengambilan keputusan
5.      Raw Data
RAW Data adalah Data ‘murni’ hasil tangkapan dari sensor digital yang sama sekali belum disentuh oleh kompresi atau pun interpolasi apapun! Jadi datanya pun ‘fresh from the oven‘, belum ada data yang hilang karena kompresi, belum ada keputusan processing apapun yangdiambil. Apa yang dilihat/ditangkap oleh sensor digital, itulah yang ada di data RAWnya.


Manfaat dari keberhasilan pelaksanaan data warehouse meliputi :

    • Peningkatan Kecerdasan Bisnis
    • Peningkatan Permintaan dan Kinerja Sistem
    • Business Intelligence dari Beberapa Sumber
    • Akses tepat waktu untuk data
    • Peningkatan Kualitas Data dan Konsistensi
    • Intelijen Sejarah
    • High Return on Investment

Pengembangan data warehouse

               Bergegas ke pengembangan data warehouse , personil sistem informasi sering menemukan kendala " on the fly " , menyebabkan jadwal dan anggaran biaya untuk tumbuh secara eksponensial .
• pengembang Data warehouse harus menjadi akrab dengan tantangan potensi untuk sukses penyebaran data warehouse .
• Ketika dibiarkan, tantangan ini bisa menjadi hambatan penuh , membawa pengembang untuk berlutut dan skala besar produksi data warehouse tersendat-sendat.
• Beberapa tantangan yang dihadapi pengembang data warehouse adalah:
1.   Complex extract , Transformasi dan beban Karakteristik
2.   Immense volume Data Harian
3.   Load Metodologi ( Beban Control dan Audit )
4.   Data Gudang Recovery ( Pemulihan Beban )
5.   Data Gudang Validasi
6.   Data Gudang Baca Kinerja
7.Metadata manajemen

Ada empat tugas yang bisa dilakukan dengan adanya data warehouse :

1. Pembuatan laporan
Pembuatan laporan merupakan salah satu kegunaan data warehouse yang paling umum dilakukan. Dengan menggunakan query sederhana didapatkan laporan perhari, perbulan, pertahun atau jangka waktu kapanpun yang diinginkan.
2. On-Line Analytical Processing (OLAP)
OLAP mendayagunakan konsep data multi dimensi dan memungkinkan para pemakai menganalisa data sampai mendetail, tanpa mengetikkan satupun perintah SQL. Hal ini dimungkinkan karena pada konsep multi dimensi, maka data yang berupa fakta yang sama bisa dilihat dengan menggunakan fungsi yang berbeda. Fasilitas lain yang ada pada sofware OLAP adalah fasilitas rool-up dan drill-down. Drill-down adalah kemampuan untuk melihat detail dari suatu informasi dan roll-up adalah kebalikannya.
3. Data mining
Data mining merupakan proses untuk menggali pengetahuan dan informasi baru dari data yang berjumlah banyak pada data warehouse, dengan menggunakan kecerdasan buatan (Artificial Intelegence), statistik dan matematika. Data mining merupakan teknologi yang diharapkan dapat menjembatani komunikasi antara data dan pemakainya.
Beberapa solusi yang diberikan data mining antara lain :
1.      Menebak target pasar
Data mining dapat mengelompokkan (clustering) model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli dan melakukan klasifikasi terhadap setiap pemebeli sesuai dengan karakteristik yang diinginkan.
2.      Melihat pola beli dari waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli dari waktu ke waktu.
3.      cross-market analysis
Data mining dapat dimanfaatkan untuk melihat hubungan antara satu produk dengan produk lainnya.
4.      Profil pelanggan
Data mining bisa membantu pengguna untuk melihat profil pembeli sehingga dapat diketahui kelompok pembeli tertentu cenderung kepada suatu produk apa saja.
5.      Informasi summary
Data mining dapat membuat laporan summary yang bersifat multi dimensi dan dilengkapi dengan informasi statistik lainnya.
4. Proses informasi executive
Data warehouse dapat membuat ringkasan informasi yang penting dengan tujuan membuat keputusan bisnis, tanpa harus menjelajahi keseluruhan data. Dengan menggunakan data warehouse segala laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara lengkap, sehingga mempermudah proses pengambilan keputusan. Informasi dan data pada laporan data warehouse menjadi target informative
bagi user.

Peranan Penting OLTP VS OLAP dalam Data Warehouse :

     OLTP (Online Transactional Processing / OLTP)
Sistem informasi adalah sekumpulan fungsi yang bekerja secara bersama-sama dalam mengelola, mengumpulkan, menyimpan, memproses serta mendistribusikan informasi. Dalam dunia kerja mengolah sistem informasi harus dibuat semudah mungkin, sehingga user dapat menggunakan hasil dari sistem informasi secara mudah. Untuk itu, sistem informasi haruslah efisien, transparan dan terintegarsi. Untuk megolah suatu sistem informasi dibutuhkan salah satu komponen yaitu sistem informasi manajemen yang berbasis komputer yang dinamakan sistem basis data (database).
Sistem basis data mempunyai peran penting sebagai tempat pusat penyimpanan data yang mendukung kegiatan operasional (Online Transactional Processing / OLTP).
Ciri-ciri umum sistem OLTP adalah :
     Mendukung jumlah pengguna yang banyak yang sering menambah dan merubah data transaksi
     Mengandung data dalam jumlah besar, termasuk di dalamnya validasi data transaksi
     Memiliki struktur yang kompleks dan rumit
     Diarahkan secara maksimal untuk melayani aktivitas transaksi harian
     Menyediakan teknologi infrastruktur yang mendukung operasional transaksi data dalam perusahaan
            Sebuah sistem OLTP yang umum memiliki karakteristik seperti jumlah user yang sangat banyak yang secara serentak mengolah dan menambah data. Dalam hal ini, apabila banyak user yang melakukan pengolahan dan penambahan data akan membebani program, saat database berkembang semakin banyak dan kompleks, waktu respon akan semakin berkurang disebabkan bertumpuknya pemakaian sumber daya yang tersedia, sehingga untuk membuat suatu keputusan sangatlah susah dan membutuhkan waktu yang lama dan untuk membuat query satu persatu pada sumber data tidak praktis dan efisien, apalagi sumber data yang ada menyimpan current (arus data), sedangkan data yang dibutuhkan oleh para pembuat keputusan adalah data-data historis.
Data warehouse menyediakan sebuah interface gabungan terhadap data, sehingga query-query pendukung keputusan mudah ditulis. Data warehouse juga dapat menyimpan sumber data yang heterogen (data yang tersebar pada database Online Transactional Processing) dipindahkan ke data yang homogen, sehinggga dengan kemampuan akses data warehouse maka upaya untuk pendukung keputusan dapat diakses dengan cepat, efisien dan akurat. Hal penting untuk menjaga Data Warehouse adalah dengan selalu memantau kekinian data yang tersimpan, dengan membuat katalog data dan disimpan secara terpisah dalam suatu sistem repositori meta data yang menyimpan informasi sumber data terkini.
     OLAP (OnLine Analytical Processing)
OLAP (OnLine Analytical Processing) adalah jenis perangkat lunak yang digunakan untuk melakukan permintaan terhadap data dalam bentuk yang kompleks dan bersifat sementara serta sewaktu-waktu. OLAP memanipulasi dan menganalisis data bervolume besar dari berbagai perspektif (multidimensi). Oleh karena itu OLAP seringkali disebut analisis data multidimensi.
OLAP bekerja dengan data dalam bentuk multidimensi. Yang umum, bentuk tiga dimensi diwujudkan ke dalam bentuk kubus data.
Tujuan OLAP adalah menggunakan informasi dalam sebuah basis data (data warehouse) untuk memandu keputusan-keputusan yang strategic. Beberapa contoh permintaan yang ditangani oleh OLAP:
a.       Berapa jumlah penjualan dalam kuartal pertama?
b.      Berapa jumlah penjualan per kuartal untuk masing-masing kota?
c.       Tampilkan 5 produk dengan total penjualan tertinggi pada kuartal pertama.
Kadangkala permintaan yang ditangani OLAP bisa diselesaikan dengan pernyataan SQL sederhana, tetapi dalam banyak kasus tidak dapat diekspresikan dengan SQL. OLAP dapat digunakan untuk melakukan konsolidasi, drill-down, dan slicing and dicing. Di bawah ini adalah kegunaan dari konsolidasi, drill-down, dan slicing and dicing yaitu:
     Konsolidasi
melibatkan pengelompokan data. Sebagai contoh kantor-kantor cabang dapat dikelompokkan menurut kota atau bahkan propinsi. Transaksi penjualan dapat ditinjau menurut tahun, triwulan, bulan, dan sebagainya. Kadangkala istilah rollup digunakan untuk menyatakan konsolidasi.
     Drill-down
Drill-down adalah suatu bentuk yang merupakan kebalikan dari konsolidasi, yang memungkinkan data yang ringkas dijabarkan menjadi data yang lebih detail. Sebagai contoh, mula-mula data yang tersaji didasarkan pada kuartal pertama. Jika dikehendaki, data masing-masing bulan pada kuartal pertama tersebut bisa diperoleh, sehingga akan tersaji data bulan Januari, Februari, Maret, dan April.
     Slicing and dicing (atau dikenal dengan istilah pivoting)
Untuk menjabarkan pada kemampuan untuk melihat data dari berbagai sudut pandang. Data dapat diiris-iris atau dipotong-potong berdasarkan kebutuhan. Sebagai contoh, dapat diperoleh data penjualan berdasarkan semua lokasi atau hanya pada lokasi-lokasi tertentu.

Adapun karakterisik aplikasi-aplikasi OLAP:
1    permintaan data sangat kompleks,
2    jarang ada pemutakhiran, dan
3    transaksi mengakses banyak bagian dalam basis data.

1 komentar: