Konsep Data Mining dan Big Data

Posted by Yn's On 02 Desember 2020 0 Comments
-------------------------------------------
 KONSEP DATA MINING
-------------------------------------------

Data Mining adalah ekstraksi atau pemahaman pattern yang menarik pada data. Data mining dapat juga diartikan sebagai serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Tujuan dilakukannya data mining adalah menemukan hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat.

Fungsi Data Mining 
Fungsi utamanya sendiri yaitu ada dua:
Fungsi deskripsi dalam data mining adalah sebuah fungsi untuk memahami lebih jauh tentang data yang diamati. 
Fungsi prediksi merupakan sebuah fungsi bagaimana sebuah proses nantinya akan menemukan pola tertentu dari suatu data. 


Proses Data Mining
Business Understanding: Dalam langkah ini, tujuan bisnis ditetapkan dan faktor penting yang akan membantu dalam mencapai tujuan ditentukan. 
Data Understanding: Seluruh data akan dikumpulkan pada tahap ini menggunakan suatu tools. Data didaftarkan beserta sumber datanya, lokasinya, cara memperolehnya, dan jika ada masalah yang ditemui. Data divisualisasikan dan diperiksa kelengkapannya.
Data Preparation: Langkah ini melibatkan pemilihan data yang sesuai, pembersihan, pembuatan atribut dari data, integrasi data dari beberapa database.
Modeling: Pemilihan teknik data mining seperti decision - tree, membuat test design untuk mengevaluasi model yang dipilih, membangun model dari dataset dan menilai model yang dibangun dengan para ahli untuk mendiskusikan hasilnya dilakukan pada langkah ini.
Evaluation: Langkah ini akan menentukan sejauh mana model yang dihasilkan memenuhi persyaratan bisnis. Evaluasi dapat dilakukan dengan menguji model di lingkungan nyata. Model ditinjau atau langkah harus diulang untuk setiap kesalahan . 
Deployment: Pada langkah ini dibuat rencana deployment, strategi untuk memantau dan memelihara hasil model data mining untuk memeriksa kegunaannya dibentuk, laporan akhir dibuat dan peninjauan keseluruhan proses dilakukan untuk memeriksa kesalahan dan melihat apakah ada langkah yang diulang. 

-------------------------------------------
KONSEP BIG DATA
-------------------------------------------

Big Data adalah istilah yang menggambarkan volume besar data – baik terstruktur maupun tidak terstruktur – yang membanjiri bisnis sehari-hari. Big data dapat dianalisis demi pemahaman yang mengarah kepada keputusan dan gerakan bisnis strategis yang lebih baik. Contoh Big Data dapat berupa data yang berukuran hingga petabytes (1,024 terabytes) atau exabytes (1,024 petabytes), seperti milyaran hingga triliunan catatan personal seseorang yang semuanya berasal dari sumber berbeda seperti web, sales, customer service, social media, data mobile dan sebagainya.

Sejarah Big Data 
Istilah "big data" mengacu pada data yang sangat besar, cepat atau kompleks sehingga sulit atau tidak mungkin untuk diproses menggunakan metode tradisional. Tindakan mengakses dan menyimpan sejumlah besar informasi untuk analitik sudah ada sejak lama. Konsep big data mendapatkan momentum di awal 2000-an ketika analis industri Doug Laney mengartikulasikan definisi big data yang sekarang mainstream sebagai tiga V.

Tiga 'V' Pada Big Data
Volume : Organisasi mengumpulkan data dari berbagai sumber, termasuk transaksi bisnis, perangkat pintar (IoT), peralatan industri, video, media sosial dan banyak lagi. Di masa lalu, menyimpannya akan menjadi masalah - tetapi penyimpanan yang lebih murah pada platform seperti data lake dan Hadoop telah meringankan beban. 
Velocity : Dengan pertumbuhan Internet of Things, data mengalir ke bisnis dengan kecepatan yang belum pernah terjadi sebelumnya dan harus ditangani tepat waktu. Tag RFID, sensor, dan smart meter mendorong kebutuhan untuk menangani torrent data ini dalam waktu yang hampir bersamaan. 
Variety : Data hadir dalam semua jenis format - dari terstruktur, data numerik dalam database tradisional hingga dokumen teks, email, video, audio, data ticker saham, dan transaksi keuangan yang tidak terstruktur. 

Cara Kerja Big Data
Ada lima langkah utama untuk mengambil alih “struktur data” besar ini yang mencakup data tradisional dan terstruktur bersama dengan data tidak terstruktur dan terstruktur:

Tetapkan strategi big data.
Pada level tinggi, strategi big data adalah rencana yang dirancang untuk membantu Anda mengawasi dan meningkatkan cara Anda memperoleh, menyimpan, mengelola, berbagi, dan menggunakan data di dalam dan di luar organisasi Anda. Strategi big data mengatur panggung untuk kesuksesan bisnis di tengah banyaknya data. 

Identifikasi sumber big data
  • Streaming data berasal dari Internet of Things (IoT) dan perangkat terhubung lainnya yang mengalir ke sistem TI dari perangkat yang dapat dipakai, mobil pintar, perangkat medis, peralatan industri, dan banyak lagi. Anda dapat menganalisis data besar ini saat tiba, memutuskan data mana yang akan disimpan atau tidak, dan mana yang perlu analisis lebih lanjut. 
  • Media sosial data berasal dari interaksi di Facebook, YouTube, Instagram, dll. Ini termasuk sejumlah besar data besar dalam bentuk gambar, video, suara, teks dan suara - berguna untuk fungsi pemasaran, penjualan, dan dukungan. Data ini sering dalam bentuk tidak terstruktur atau semi-terstruktur, sehingga menimbulkan tantangan unik untuk konsumsi dan analisis. 
  • Data yang tersedia untuk umum berasal dari sejumlah besar sumber data terbuka seperti data pemerintah AS. Gov, CIA World Factbook, atau Portal Data Terbuka Uni Eropa. 
  • Data besar lainnya dapat berasal dari danau data, sumber data cloud, pemasok dan pelanggan.
Akses, kelola, dan simpan data
Sistem komputasi modern memberikan kecepatan, daya, dan fleksibilitas yang dibutuhkan untuk dengan cepat mengakses sejumlah besar dan tipe data besar. Seiring dengan akses yang andal, perusahaan juga membutuhkan metode untuk mengintegrasikan data, memastikan kualitas data, menyediakan tata kelola dan penyimpanan data, dan menyiapkan data untuk analitik.

Analisis data
Dengan teknologi kinerja tinggi seperti komputasi grid atau analytics di memori, organisasi dapat memilih untuk menggunakan semua data besar mereka untuk analisis. Pendekatan lain adalah untuk menentukan dimuka data mana yang relevan sebelum menganalisisnya.

Buat keputusan berdasarkan data (Data Driven)
Dikelola dengan baik, data terpercaya mengarah ke analitik tepercaya dan keputusan tepercaya. Organisasi yang digerakkan oleh data berkinerja lebih baik, secara operasional lebih mudah diprediksi, dan lebih menguntungkan.


-------------------------------------------
BIG DATA CASE STUDY
-------------------------------------------

  • Walmart adalah pengecer terbesar di dunia dan perusahaan terbesar di dunia berdasarkan pendapatan, dengan lebih dari 2 juta karyawan dan 20.000 toko di 28 negara.
  • Walmart mulai menggunakan big data analytics jauh sebelum istilah “Big Data” muncul.
  • Walmart menggunakan Data Mining untuk menemukan pola yang dapat digunakan untuk memberikan rekomendasi produk kepada pengguna, berdasarkan produk mana yang dikumpulkan.
  • Walmart dengan menerapkan Data Mining yang efektif telah meningkatkan tingkat konversi pelanggannya.
  • Analisis big data telah dipercepat untuk menyediakan teknologi e-commerce terbaik di kelasnya dengan motif untuk memberikan pengalaman pelanggan yang superior. 
  • Tujuan utama menyimpan big data di Walmart adalah untuk mengoptimalkan pengalaman berbelanja pelanggan saat mereka berada di toko Walmart. 
  • Solusi big data di Walmart dikembangkan dengan tujuan mendesain ulang situs web global dan membangun aplikasi inovatif untuk menyesuaikan pengalaman belanja bagi pelanggan sambil meningkatkan efisiensi logistik. 
  • Teknologi Hadoop dan NoSQL digunakan untuk memberi pelanggan internal akses ke data yang dikumpulkan secara real-time dari berbagai sumber dan terpusat untuk penggunaan yang efektif.
  • Uber adalah pilihan pertama bagi orang-orang di seluruh dunia ketika mereka berpikir untuk memindahkan orang dan melakukan pengiriman. 
  • Uber menggunakan data pribadi pengguna untuk memantau dengan cermat fitur layanan mana yang paling banyak digunakan, untuk menganalisis pola penggunaan dan untuk menentukan di mana layanan harus lebih difokuskan. 
  • Uber berfokus pada penawaran dan permintaan layanan karena itu harga layanan yang diberikan berubah. 
  • Salah satu penggunaan data terbesar Uber adalah lonjakan harga. Misalnya, jika Anda terlambat membuat janji dan memesan taksi di tempat yang ramai, Anda harus siap membayar dua kali lipat. 
  • Misalnya, Pada Malam Tahun Baru, harga untuk mengemudi sejauh satu mil bisa naik dari 200 menjadi 1000. 
  • Dalam jangka pendek, lonjakan harga memengaruhi tingkat permintaan, sementara penggunaan jangka panjang bisa menjadi kunci untuk mempertahankan atau kehilangan pelanggan. 
  • Permintaan yang kuat dianalisis menggunakan Algoritma Machine Learning.

  • Ini adalah perusahaan hiburan Amerika paling dicintai yang mengkhususkan diri dalam streaming video on-demand online untuk pelanggannya. 
  • Netflix telah bertekad untuk dapat memprediksi apa yang sebenarnya akan dinikmati pelanggannya dengan Big Data. 
  • Dengan demikian, Big Data analytics merupakan bahan bakar yang mengaktifkan 'mesin rekomendasi' yang dirancang untuk memenuhi tujuan ini. 
  • Baru-baru ini, Netflix mulai memposisikan dirinya sebagai pembuat konten, bukan hanya metode distribusi. Tidak mengherankan, strategi ini didorong oleh data. 
  • Mesin rekomendasi Netflix dan keputusan konten baru diberikan oleh poin data seperti judul yang ditonton pelanggan, seberapa sering pemutaran dihentikan, peringkat diberikan, dll. 
  • Struktur data perusahaan mencakup Hadoop, Hive, dan Pig dengan banyak business intelligence tradisional lainnya. 
  • Netflix menunjukkan kepada kita bahwa mengetahui dengan tepat apa yang diinginkan pelanggan mudah dipahami jika perusahaan tidak mengikuti asumsi dan membuat keputusan berdasarkan Big Data.
  • Tantangan teknis besar bagi eBay sebagai bisnis yang padat dengan data adalah untuk mengeksploitasi sistem yang dapat menganalisis dan menindaklanjuti data dengan cepat ketika data tersebut begitu tiba (streaming data). 
  • Terdapat banyak metode yang berkembang pesat untuk mendukung analisis streaming data. 
  • eBay menggunakan beberapa tools termasuk Apache Spark, Storm, Kafka. 
  • Ini memungkinkan analis data perusahaan untuk mencari tag informasi yang telah dikaitkan dengan data (metadata) dan membuatnya dapat dikonsumsi oleh sebanyak mungkin orang dengan tingkat keamanan dan hak akses yang tepat (tata kelola data). 
  • Perusahaan ini telah berada di garis depan dalam menggunakan solusi big data dan secara aktif menyumbangkan pengetahuannya kembali ke komunitas open-source.

  • Procter & Gamble (P&G) yang produknya kita semua gunakan 2-3 kali sehari adalah perusahaan berusia 179 tahun. 
  • Perusahaan jenius telah mengenali potensi Big Data dan menggunakannya di unit bisnis di seluruh dunia. 
  • P&G sangat menekankan penggunaan big data untuk membuat keputusan bisnis yang lebih baik, lebih cerdas, dan real-time. 
  • Organisasi Layanan Bisnis Global telah mengembangkan alat, sistem, dan proses untuk memberi manajer akses langsung ke data terbaru dan analitik tingkat lanjut. 
  • Oleh karena itu P&G menjadi perusahaan tertua, yang masih memegang pangsa pasar yang besar meskipun memiliki banyak perusahaan baru.

--------------------------

0 Comments to Konsep Data Mining dan Big Data

Posting Komentar