-------------------------------------------
KONSEP DATA MINING
-------------------------------------------
Data Mining adalah ekstraksi atau pemahaman pattern yang menarik pada
data. Data mining dapat juga diartikan sebagai serangkaian proses untuk
menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang
selama ini tidak diketahui secara manual. Tujuan dilakukannya data mining adalah menemukan hubungan atau pola
yang mungkin memberikan indikasi yang bermanfaat.
Fungsi Data Mining
Fungsi utamanya sendiri yaitu ada dua:
Fungsi deskripsi dalam data mining adalah sebuah fungsi untuk memahami
lebih jauh tentang data yang diamati.
Fungsi prediksi merupakan sebuah fungsi bagaimana sebuah proses
nantinya akan menemukan pola tertentu dari suatu data.
Proses Data Mining
Business Understanding: Dalam langkah ini, tujuan bisnis
ditetapkan dan faktor penting yang akan membantu dalam
mencapai tujuan ditentukan.
Data Understanding: Seluruh data akan dikumpulkan pada
tahap ini menggunakan suatu tools. Data didaftarkan
beserta sumber datanya, lokasinya, cara memperolehnya,
dan jika ada masalah yang ditemui. Data divisualisasikan
dan diperiksa kelengkapannya.
Data Preparation: Langkah ini melibatkan pemilihan data
yang sesuai, pembersihan, pembuatan atribut dari data,
integrasi data dari beberapa database.
Modeling: Pemilihan teknik data mining seperti decision
-
tree, membuat test design untuk mengevaluasi model yang
dipilih, membangun model dari dataset dan menilai model
yang dibangun dengan para ahli untuk mendiskusikan
hasilnya dilakukan pada langkah ini.
Evaluation: Langkah ini akan menentukan sejauh mana
model yang dihasilkan memenuhi persyaratan bisnis.
Evaluasi dapat dilakukan dengan menguji model di
lingkungan nyata. Model ditinjau atau langkah harus
diulang untuk setiap kesalahan .
Deployment: Pada langkah ini dibuat rencana deployment,
strategi untuk memantau dan memelihara hasil model data
mining untuk memeriksa kegunaannya dibentuk, laporan
akhir dibuat dan peninjauan keseluruhan proses dilakukan
untuk memeriksa kesalahan dan melihat apakah ada
langkah yang diulang.
-------------------------------------------
KONSEP BIG DATA
-------------------------------------------
Big Data adalah istilah yang menggambarkan volume besar
data – baik terstruktur maupun tidak terstruktur – yang
membanjiri bisnis sehari-hari. Big data dapat dianalisis demi pemahaman yang mengarah
kepada keputusan dan gerakan bisnis strategis yang lebih
baik. Contoh Big Data dapat berupa data yang berukuran hingga
petabytes (1,024 terabytes) atau exabytes (1,024 petabytes),
seperti milyaran hingga triliunan catatan personal seseorang
yang semuanya berasal dari sumber berbeda seperti web,
sales, customer service, social media, data mobile dan
sebagainya.
Sejarah Big Data
Istilah "big data" mengacu pada data yang sangat besar, cepat atau kompleks
sehingga sulit atau tidak mungkin untuk diproses menggunakan metode
tradisional. Tindakan mengakses dan menyimpan sejumlah besar informasi untuk
analitik sudah ada sejak lama. Konsep big data mendapatkan momentum di awal 2000-an ketika analis
industri Doug Laney mengartikulasikan definisi big data yang sekarang mainstream sebagai tiga V.
Tiga 'V' Pada Big Data
Volume : Organisasi mengumpulkan data dari berbagai sumber, termasuk transaksi
bisnis, perangkat pintar (IoT), peralatan industri, video, media sosial dan banyak lagi.
Di masa lalu, menyimpannya akan menjadi masalah - tetapi penyimpanan yang lebih
murah pada platform seperti data lake dan Hadoop telah meringankan beban.
Velocity : Dengan pertumbuhan Internet of Things, data mengalir ke bisnis dengan
kecepatan yang belum pernah terjadi sebelumnya dan harus ditangani tepat waktu.
Tag RFID, sensor, dan smart meter mendorong kebutuhan untuk menangani torrent
data ini dalam waktu yang hampir bersamaan.
Variety : Data hadir dalam semua jenis format - dari terstruktur, data numerik dalam
database tradisional hingga dokumen teks, email, video, audio, data ticker saham,
dan transaksi keuangan yang tidak terstruktur.
Cara Kerja Big Data
Ada lima langkah utama untuk mengambil alih “struktur data” besar ini yang
mencakup data tradisional dan terstruktur bersama dengan data tidak
terstruktur dan terstruktur:
Tetapkan strategi big data.
Pada level tinggi, strategi big data adalah rencana yang
dirancang untuk membantu Anda mengawasi dan meningkatkan cara Anda memperoleh,
menyimpan, mengelola, berbagi, dan menggunakan data di dalam dan di luar organisasi
Anda. Strategi big data mengatur panggung untuk kesuksesan bisnis di tengah banyaknya
data.
Identifikasi sumber big data.
- Streaming data berasal dari Internet of Things (IoT) dan perangkat terhubung lainnya yang mengalir ke sistem TI dari perangkat yang dapat dipakai, mobil pintar, perangkat medis, peralatan industri, dan banyak lagi. Anda dapat menganalisis data besar ini saat tiba, memutuskan data mana yang akan disimpan atau tidak, dan mana yang perlu analisis lebih lanjut.
- Media sosial data berasal dari interaksi di Facebook, YouTube, Instagram, dll. Ini termasuk sejumlah besar data besar dalam bentuk gambar, video, suara, teks dan suara - berguna untuk fungsi pemasaran, penjualan, dan dukungan. Data ini sering dalam bentuk tidak terstruktur atau semi-terstruktur, sehingga menimbulkan tantangan unik untuk konsumsi dan analisis.
- Data yang tersedia untuk umum berasal dari sejumlah besar sumber data terbuka seperti data pemerintah AS. Gov, CIA World Factbook, atau Portal Data Terbuka Uni Eropa.
- Data besar lainnya dapat berasal dari danau data, sumber data cloud, pemasok dan pelanggan.
Sistem komputasi modern
memberikan kecepatan, daya, dan fleksibilitas yang
dibutuhkan untuk dengan cepat mengakses sejumlah besar
dan tipe data besar. Seiring dengan akses yang andal,
perusahaan juga membutuhkan metode untuk
mengintegrasikan data, memastikan kualitas data,
menyediakan tata kelola dan penyimpanan data, dan
menyiapkan data untuk analitik.
Analisis data.
Dengan teknologi kinerja tinggi seperti
komputasi grid atau analytics di memori, organisasi dapat
memilih untuk menggunakan semua data besar mereka
untuk analisis. Pendekatan lain adalah untuk menentukan
dimuka data mana yang relevan sebelum menganalisisnya.
Buat keputusan berdasarkan data (Data Driven)
Dikelola dengan
baik, data terpercaya mengarah ke analitik tepercaya
dan keputusan tepercaya. Organisasi yang digerakkan
oleh data berkinerja lebih baik, secara operasional
lebih mudah diprediksi, dan lebih menguntungkan.
-------------------------------------------
BIG DATA CASE STUDY
-------------------------------------------
- Walmart adalah pengecer terbesar di dunia dan perusahaan terbesar di dunia berdasarkan pendapatan, dengan lebih dari 2 juta karyawan dan 20.000 toko di 28 negara.
- Walmart mulai menggunakan big data analytics jauh sebelum istilah “Big Data” muncul.
- Walmart menggunakan Data Mining untuk menemukan pola yang dapat digunakan untuk memberikan rekomendasi produk kepada pengguna, berdasarkan produk mana yang dikumpulkan.
- Walmart dengan menerapkan Data Mining yang efektif telah meningkatkan tingkat konversi pelanggannya.
- Analisis big data telah dipercepat untuk menyediakan teknologi e-commerce terbaik di kelasnya dengan motif untuk memberikan pengalaman pelanggan yang superior.
- Tujuan utama menyimpan big data di Walmart adalah untuk mengoptimalkan pengalaman berbelanja pelanggan saat mereka berada di toko Walmart.
- Solusi big data di Walmart dikembangkan dengan tujuan mendesain ulang situs web global dan membangun aplikasi inovatif untuk menyesuaikan pengalaman belanja bagi pelanggan sambil meningkatkan efisiensi logistik.
- Teknologi Hadoop dan NoSQL digunakan untuk memberi pelanggan internal akses ke data yang dikumpulkan secara real-time dari berbagai sumber dan terpusat untuk penggunaan yang efektif.
- Uber adalah pilihan pertama bagi orang-orang di seluruh dunia ketika mereka berpikir untuk memindahkan orang dan melakukan pengiriman.
- Uber menggunakan data pribadi pengguna untuk memantau dengan cermat fitur layanan mana yang paling banyak digunakan, untuk menganalisis pola penggunaan dan untuk menentukan di mana layanan harus lebih difokuskan.
- Uber berfokus pada penawaran dan permintaan layanan karena itu harga layanan yang diberikan berubah.
- Salah satu penggunaan data terbesar Uber adalah lonjakan harga. Misalnya, jika Anda terlambat membuat janji dan memesan taksi di tempat yang ramai, Anda harus siap membayar dua kali lipat.
- Misalnya, Pada Malam Tahun Baru, harga untuk mengemudi sejauh satu mil bisa naik dari 200 menjadi 1000.
- Dalam jangka pendek, lonjakan harga memengaruhi tingkat permintaan, sementara penggunaan jangka panjang bisa menjadi kunci untuk mempertahankan atau kehilangan pelanggan.
- Permintaan yang kuat dianalisis menggunakan Algoritma Machine Learning.
- Ini adalah perusahaan hiburan Amerika paling dicintai yang mengkhususkan diri dalam streaming video on-demand online untuk pelanggannya.
- Netflix telah bertekad untuk dapat memprediksi apa yang sebenarnya akan dinikmati pelanggannya dengan Big Data.
- Dengan demikian, Big Data analytics merupakan bahan bakar yang mengaktifkan 'mesin rekomendasi' yang dirancang untuk memenuhi tujuan ini.
- Baru-baru ini, Netflix mulai memposisikan dirinya sebagai pembuat konten, bukan hanya metode distribusi. Tidak mengherankan, strategi ini didorong oleh data.
- Mesin rekomendasi Netflix dan keputusan konten baru diberikan oleh poin data seperti judul yang ditonton pelanggan, seberapa sering pemutaran dihentikan, peringkat diberikan, dll.
- Struktur data perusahaan mencakup Hadoop, Hive, dan Pig dengan banyak business intelligence tradisional lainnya.
- Netflix menunjukkan kepada kita bahwa mengetahui dengan tepat apa yang diinginkan pelanggan mudah dipahami jika perusahaan tidak mengikuti asumsi dan membuat keputusan berdasarkan Big Data.
- Tantangan teknis besar bagi eBay sebagai bisnis yang padat dengan data adalah untuk mengeksploitasi sistem yang dapat menganalisis dan menindaklanjuti data dengan cepat ketika data tersebut begitu tiba (streaming data).
- Terdapat banyak metode yang berkembang pesat untuk mendukung analisis streaming data.
- eBay menggunakan beberapa tools termasuk Apache Spark, Storm, Kafka.
- Ini memungkinkan analis data perusahaan untuk mencari tag informasi yang telah dikaitkan dengan data (metadata) dan membuatnya dapat dikonsumsi oleh sebanyak mungkin orang dengan tingkat keamanan dan hak akses yang tepat (tata kelola data).
- Perusahaan ini telah berada di garis depan dalam menggunakan solusi big data dan secara aktif menyumbangkan pengetahuannya kembali ke komunitas open-source.
- Procter & Gamble (P&G) yang produknya kita semua gunakan 2-3 kali sehari adalah perusahaan berusia 179 tahun.
- Perusahaan jenius telah mengenali potensi Big Data dan menggunakannya di unit bisnis di seluruh dunia.
- P&G sangat menekankan penggunaan big data untuk membuat keputusan bisnis yang lebih baik, lebih cerdas, dan real-time.
- Organisasi Layanan Bisnis Global telah mengembangkan alat, sistem, dan proses untuk memberi manajer akses langsung ke data terbaru dan analitik tingkat lanjut.
- Oleh karena itu P&G menjadi perusahaan tertua, yang masih memegang pangsa pasar yang besar meskipun memiliki banyak perusahaan baru.
--------------------------
0 Comments to Konsep Data Mining dan Big Data