Selasa, 24 Oktober 2017

Algoritma dalam Data Mining

Solusi sains dan teknologi -- Dalam posting ini, saya ingin secara singkat mengenalkan penggunaan Solusi sains dan teknologi Algorithms (GA) pada aplikasi Data Mining.Materi yang dibahas di sini didasarkan pada proyek dan penelitian saya sebelumnya.GA adalah algoritma pencarian yang bisa diterapkan secara praktis di ruang pencarian berskala besar.Jika Anda berpikir "ruang pencarian" terlalu abstrak untuk dipahami, mungkin Anda memikirkannya dengan cara ini: Ruang pencarian adalah kumpulan semua solusi yang mungkin untuk masalah Anda.

Solusi sains dan teknologi -- Di Data Mining, masalah klasik tidak lebih dari klasifikasi, asosiasi, prediksi dan pengelompokan.Untuk mengatasi masalah tersebut, pengolahan dan pemrosesan data berkala sangat penting namun selalu diabaikan oleh pemula.Secara lebih rinci, masalah yang berkaitan dengan pra-pengolahan dan pasca-pengolahan beragam; misalnya memilih fitur data untuk meningkatkan kinerja pengklasifikasi, menyesuaikan bobot pengklasifikasi untuk meningkatkan, atau memangkas asosiasi yang tidak menarikblems, GA adalah kandidat kuat untuk mencari solusi.Sebagai cabang Algoritma Evolusi, GA memecahkan masalah dengan populasi aturan terbaik yang berkembang.

Solusi sains dan teknologi -- Alur kerja umum GA ditunjukkan seperti di bawah ini.Dalam Populasi, solusi potensial dari masalah yang diberikan diwakili sebagai peraturan.Aturan biasanya terdiri dari suatu kondisi dan tindakan.Secara konvensional, baik kondisi dan tindakan diwakili sebagai bit-string, mis.

Solusi sains dan teknologi -- <0101 # 01>.Setiap bit dalam string menunjukkan true, false atau tidak peduli entitas yang sesuai.Selain itu, aturan dikaitkan dengan kebugaran yang menunjukkan seberapa baik aturan tersebut dapat digunakan untuk memecahkan masalah yang diberikan.Sebagai contoh, mari adalah vektor fitur data, dan sebuah aturan dapat direpresentasikan sebagai.

Solusi sains dan teknologi -- Dalam aturan ini, kondisinya, mewakili kombinasi fitur data, yang mungkin atau mungkin tidak mengandung, dan tindakan, berarti menggunakan label untuk klasifikasi.Dalam hal ini, kebugaran aturan dapat dievaluasi berdasarkan kinerja pengklasifikasi.Sebagai alternatif, aturan representasi bit-string juga bisa diganti dengan vektor bobot, pohon keputusan, kalimat orde pertama, jaringan syaraf tiruan, dll.Untuk memahami GA, di posting ini saya akan bersikeras menggunakan string bit sebagai representasi aturan.

Solusi sains dan teknologi -- Aturan (solusi potensial) dengan kebugaran yang baik dipilih untuk pemecahan masalah.Kemudian, berdasarkan kinerja peraturan yang dipilih, penghargaan akan diberikan kembali dari lingkungan (yang dapat dipahami sebagai masalah yang harus dipecahkan).Imbalan tersebut akan didistribusikan ke aturan kebugaran dalam Populasi oleh algoritma pemberian tugas kredit tertentu (misalnya Brigade Bucket atau Q-learning).Dengan kebugaran yang diperbarui, Crossover and Mutation - dua operator dasar GA - akan dipicu untuk menemukan peraturan yang lebih baik berdasarkan Populasi saat ini.

Solusi sains dan teknologi -- Mekanisme umum kedua Crossover dan Mutasi diilustrasikan di bawah ini, Untuk menemukan peraturan baru dengan menggunakan GA, dua aturan akan dipilih dari Populasi sebagai orang tua.Sementara itu, aturan yang dikeluarkan oleh GA disebut offsprings.SejakAturan dalam Populasi mungkin memiliki panjang variabel atau identik, ada dua mekanisme umum untuk menerapkan Crossover and Mutasi.Bila aturan memiliki panjang variabel, Crossover mungkin memerlukan dua breakpoint pada posisi acak pada orang tua, dan rangkaian offsprings diproduksi dengan menukar bagian di antara dua breakpoint tersebut.

Solusi sains dan teknologi -- Bila aturan memiliki panjang yang sama, Crossover akan membutuhkan satu breakpoint pada posisi yang sama pada setiap orang tua, dan bagian-bagiannya dihasilkan oleh bagian swapping pada sisi breakpoint yang sama.Dalam hal ini, dihasilkan offsprings akan tetap panjang identik.Sedangkan untuk Mutasi, ini bisa membantu GA melompat keluar dari optima lokal.Dalam kedua kasus tersebut, Mutasi akan Solusi sains dan teknologi satu bit acak pada keturunan ke nilai acak lainnya.

Solusi sains dan teknologi -- Yang perlu dicatat adalah bahwa Mutasi harus dipicu dengan probabilitas rendah, jika tidak GA akan menjadi pencarian Random-Walk.Sejauh ini, ada satu hal yang belum saya sebutkan, itulah evaluasi kebugaran peraturan.Dalam Bucket Brigade dan Q-Learning, kebugaran aturan dievaluasi bakekuatan dan akurasi masing-masing.Kekuatan aturan dapat dihitung berdasarkan seberapa sering aturan tersebut digunakan, atau berapa banyak penghargaan yang telah diterima dari lingkungan karena peraturan tersebut.

Solusi sains dan teknologi -- Di sisi lain, ketepatan suatu peraturan dihitung berdasarkan seberapa akurat sebuah peraturan dapat memprediksi hasilnya atau imbalan yang diberikan kembali dari lingkungan.(Kedua Bucket Brigade dan Q-Learning sangat penting untuk merancang GA yang efektif.Artikel-artikel yang dikaitkan dengan nama kedua algoritma tersebut sangat bermanfaat bagi saya.) Selain itu, fungsi yang digunakan untuk kebugaran yang dievaluasi 'kebugaran (atau fungsi kebugaran) adalah masalah.tergantung.

Solusi sains dan teknologi -- Dengan kata lain, analis harus bisa mendesain, memilih atau men-tweak fungsi yang berbeda agar GA efektif menyelesaikan berbagai masalah.Misalnya, jika masalahnya adalah memilih fitur data untuk meningkatkan ketepatan klasifikasi, fungsi kebugaran bisa menjadi klasifikasi sendiri sementara aturan mewakili berbagai kombinasi fitur data (seperti contoh sebelumnya yang diberikan dalam po inist).GA telah banyak diterapkan pada pemilihan fitur, parameter tuning dan klasifikasi.Pos ini hanya menyediakan titik awal untuk mempelajari GA terutama untuk aplikasi Data Mining.

Solusi sains dan teknologi -- Pertanyaan yang lebih terperinci (misalnya Solusi sains dan teknologi Drift, Niching, Crowding, and Subsumption) adalah topik penelitian yang penting, namun topik ini berada di luar cakupan artikel ini.(Komentar terkait kesalahan dan saran disambut.) .

Tidak ada komentar:

Posting Komentar