Kaedah pengelompokan ialah tugas mengelompokkan set objek sedemikian rupa sehingga mereka dalam kumpulan yang sama lebih serupa antara satu sama lain berbanding objek dalam industri lain. Ia merupakan tugas utama perlombongan data dan teknik analisis statistik umum yang digunakan dalam banyak bidang, termasuk pembelajaran mesin, pengecaman corak, pengecaman imej, pengambilan maklumat, pemampatan data dan grafik komputer.
Masalah pengoptimuman
Kaedah pengelompokan itu sendiri bukanlah satu algoritma khusus, tetapi tugas umum yang perlu diselesaikan. Ini boleh dicapai dengan pelbagai algoritma yang berbeza dengan ketara dalam memahami apa yang membentuk kumpulan dan cara mencarinya dengan cekap. Penggunaan kaedah pengelompokan untuk pembentukan metasubjek merangkumi penggunaan kumpulan denganjarak kecil antara ahli, kawasan padat ruang, selang, atau taburan statistik tertentu. Oleh itu, pengelompokan boleh dirumuskan sebagai masalah pengoptimuman berbilang objektif.
Kaedah dan tetapan parameter yang sesuai (termasuk item seperti fungsi jarak untuk digunakan, ambang ketumpatan atau bilangan gugusan yang dijangkakan) bergantung pada set data individu dan tujuan penggunaan hasil. Analisis sedemikian bukanlah tugas automatik, tetapi proses berulang penemuan pengetahuan atau pengoptimuman pelbagai objektif interaktif. Kaedah pengelompokan ini termasuk percubaan percubaan dan kesilapan. Selalunya anda perlu mengubah suai prapemprosesan data dan parameter model sehingga hasilnya mencapai sifat yang diingini.
Selain istilah "pengelompokan", terdapat beberapa perkataan dengan makna yang sama, termasuk pengelasan automatik, taksonomi berangka, kedua-dua dan analisis tipologi. Perbezaan halus selalunya terletak pada penggunaan kaedah pengelompokan untuk membentuk hubungan metasubjek. Walaupun dalam pengekstrakan data kumpulan yang terhasil adalah menarik, dalam pengelasan automatik ia sudah pun kuasa diskriminasi yang melaksanakan fungsi ini.
Analisis kelompok didasarkan pada banyak karya oleh Kroeber pada tahun 1932. Ia diperkenalkan ke dalam psikologi oleh Zubin pada tahun 1938 dan oleh Robert Tryon pada tahun 1939. Dan kerja-kerja ini telah digunakan oleh Cattell sejak 1943 untuk menunjukkan klasifikasi kaedah pengelompokan secara teori.
Syarat
Konsep "kelompok" tidak boleh ditakrifkan dengan tepat. Ini adalah salah satu sebab mengapa terdapat begitu banyak kaedah pengelompokan. Terdapat penyebut biasa: sekumpulan objek data. Walau bagaimanapun, penyelidik yang berbeza menggunakan model yang berbeza. Dan setiap penggunaan kaedah pengelompokan ini melibatkan data yang berbeza. Konsep yang ditemui oleh pelbagai algoritma berbeza dengan ketara dalam sifatnya.
Menggunakan kaedah pengelompokan adalah kunci untuk memahami perbezaan antara arahan. Corak kelompok biasa termasuk:
- Centroid s. Ini, sebagai contoh, apabila k-means clustering mewakili setiap cluster dengan satu vektor min.
- Model kesambungan s. Ini, sebagai contoh, pengelompokan hierarki, yang membina model berdasarkan ketersambungan jarak.
- Model pengedaran s. Dalam kes ini, kelompok dimodelkan menggunakan kaedah pengelompokan untuk membentuk taburan statistik metasubjek. Seperti pemisahan normal multivariate, yang boleh digunakan pada algoritma pemaksimuman jangkaan.
- Model ketumpatan s. Ini adalah, sebagai contoh, DBSCAN (Algoritma Pengelompokan Ruang dengan Bunyi Bising) dan OPTIK (Titik Pesanan untuk Pengesanan Struktur), yang mentakrifkan kelompok sebagai kawasan padat yang disambungkan dalam ruang data.
- Model subruang c. Dalam pengelompokan dua (juga dikenali sebagai pengelompokan bersama atau dua mod), kumpulan dimodelkan dengan kedua-dua elemen dan dengan atribut yang sesuai.
- Model s. Sesetengah algoritma tidakperhubungan yang diperhalusi untuk kaedah pengelompokan mereka untuk menjana hasil meta-subjek dan hanya menyediakan pengumpulan maklumat.
- Model berdasarkan graf s. Satu klik, iaitu subset nod, supaya setiap dua sambungan di bahagian tepi boleh dianggap sebagai prototaip bentuk kelompok. Kelemahan jumlah permintaan dikenali sebagai quasi-cliques. Nama yang sama dipersembahkan dalam algoritma pengelompokan HCS.
- Model saraf s. Rangkaian tanpa pengawasan yang paling terkenal ialah peta penyusunan sendiri. Dan model inilah yang biasanya boleh dicirikan sebagai serupa dengan satu atau lebih kaedah pengelompokan di atas untuk pembentukan hasil meta-subjek. Ia termasuk sistem subruang apabila rangkaian saraf melaksanakan bentuk analisis komponen utama atau bebas yang diperlukan.
Istilah ini, sebenarnya, satu set kumpulan sedemikian, yang biasanya mengandungi semua objek dalam set kaedah pengelompokan data. Di samping itu, ia boleh menunjukkan hubungan kelompok antara satu sama lain, seperti hierarki sistem yang dibina antara satu sama lain. Pengelompokan boleh dibahagikan kepada aspek berikut:
- Kaedah pengelompokan centroid keras. Di sini, setiap objek tergolong dalam kumpulan atau berada di luar daripadanya.
- Sistem lembut atau kabur. Pada ketika ini, setiap objek sudah dimiliki pada tahap tertentu kepada mana-mana kelompok. Ia juga dipanggil kaedah c-means fuzzy clustering.
Dan perbezaan yang lebih halus juga mungkin. Contohnya:
- Pengkelompokan pembahagian yang ketat. Di sinisetiap objek tergolong dalam satu kumpulan.
- Pengumpulan partitioning yang ketat dengan outlier. Dalam kes ini, objek juga mungkin bukan tergolong dalam mana-mana kelompok dan dianggap tidak perlu.
- Kluster bertindih (juga alternatif, dengan berbilang paparan). Di sini, objek boleh dimiliki oleh lebih daripada satu cabang. Biasanya melibatkan gugusan pepejal.
- Kaedah pengelompokan hierarki. Objek kepunyaan kumpulan anak juga tergolong dalam subsistem induk.
- Pembentukan subruang. Walaupun serupa dengan kelompok bertindih, dalam sistem yang ditentukan secara unik, kumpulan bersama tidak seharusnya bertindih.
Arahan
Seperti yang dinyatakan di atas, algoritma pengelompokan boleh diklasifikasikan berdasarkan model kelompoknya. Semakan berikut akan menyenaraikan hanya contoh yang paling menonjol bagi arahan ini. Memandangkan mungkin terdapat lebih 100 algoritma yang diterbitkan, tidak semua menyediakan model untuk kelompok mereka dan oleh itu tidak boleh diklasifikasikan dengan mudah.
Tiada algoritma pengelompokan yang betul secara objektif. Tetapi, seperti yang dinyatakan di atas, arahan sentiasa dalam bidang pandangan pemerhati. Algoritma pengelompokan yang paling sesuai untuk masalah tertentu selalunya perlu dipilih secara eksperimen, melainkan terdapat sebab matematik untuk memilih satu model berbanding model yang lain. Perlu diingatkan bahawa algoritma yang direka untuk satu jenis biasanya tidak berfungsiset data yang mengandungi subjek yang sangat berbeza. Contohnya, k-means tidak dapat mencari kumpulan bukan cembung.
Pengkelompokan berasaskan sambungan
Kesatuan ini juga dikenali dengan namanya, model hierarki. Ia berdasarkan idea tipikal bahawa objek lebih berhubung dengan bahagian jiran berbanding dengan objek yang jauh lebih jauh. Algoritma ini menghubungkan objek, membentuk kelompok yang berbeza, bergantung pada jaraknya. Satu kumpulan boleh diterangkan terutamanya dengan jarak maksimum yang diperlukan untuk menyambung bahagian yang berlainan dalam kelompok. Pada semua jarak yang mungkin, kumpulan lain akan terbentuk, yang boleh diwakili menggunakan dendrogram. Ini menerangkan dari mana nama biasa "kelompok hierarki" berasal. Maksudnya, algoritma ini tidak menyediakan satu partition set data, sebaliknya menyediakan susunan kuasa yang meluas. Ia adalah terima kasih kepadanya bahawa terdapat longkang antara satu sama lain pada jarak tertentu. Dalam dendrogram, paksi-y menandakan jarak di mana gugusan berkumpul. Dan objek disusun di sepanjang garis X supaya kumpulan tidak bercampur.
Pengkelompokan berasaskan sambungan ialah seluruh keluarga kaedah yang berbeza dalam cara mereka mengira jarak. Sebagai tambahan kepada pilihan fungsi jarak yang biasa, pengguna juga perlu membuat keputusan mengenai kriteria sambungan. Oleh kerana kluster terdiri daripada beberapa objek, terdapat banyak pilihan untuk mengiranya. Pilihan popular dikenali sebagai kumpulan tuil tunggal, inilah kaedahnyapautan penuh, yang mengandungi UPGMA atau WPGMA (kumpulan pasangan tidak berwajaran atau berwajaran dengan min aritmetik, juga dikenali sebagai pengelompokan pautan min). Selain itu, sistem hierarki boleh menjadi aglomeratif (bermula dengan elemen individu dan menggabungkannya ke dalam kumpulan) atau membahagikan (bermula dengan set data lengkap dan memecahkannya kepada bahagian).
Kumpulan teragih
Model ini paling rapat berkaitan dengan statistik yang berdasarkan pemisahan. Kelompok boleh ditakrifkan dengan mudah sebagai objek yang berkemungkinan besar tergolong dalam pengedaran yang sama. Ciri berguna pendekatan ini ialah ia sangat serupa dengan cara set data buatan dicipta. Dengan mensampel objek rawak daripada taburan.
Walaupun asas teori kaedah ini sangat baik, kaedah ini mengalami satu masalah utama, yang dikenali sebagai overfitting, melainkan had dikenakan ke atas kerumitan model. Perkaitan yang lebih besar biasanya akan menerangkan data dengan lebih baik, menjadikannya sukar untuk memilih kaedah yang betul.
Model campuran Gaussian
Kaedah ini menggunakan semua jenis algoritma pemaksimum jangkaan. Di sini, set data biasanya dimodelkan dengan nombor tetap (untuk mengelakkan mengatasi) taburan Gaussian yang dimulakan secara rawak dan parameternya dioptimumkan secara berulang agar lebih sesuai dengan set data. Sistem ini akan menumpu kepada optimum tempatan. Itulah sebabnya beberapa larian boleh memberikeputusan yang berbeza. Untuk mendapatkan pengelompokan yang paling ketat, ciri selalunya diberikan kepada pengedaran Gaussian yang kemungkinan besar dimilikinya. Dan untuk kumpulan yang lebih lembut, ini tidak perlu.
Pengkelompokan berasaskan pengedaran mencipta model kompleks yang akhirnya dapat menangkap korelasi dan pergantungan antara atribut. Walau bagaimanapun, algoritma ini mengenakan beban tambahan kepada pengguna. Untuk kebanyakan set data dunia sebenar, mungkin tidak ada model matematik yang ditakrifkan secara ringkas (contohnya, andaian taburan Gaussian ialah andaian yang agak kukuh).
Pengkelompokan berdasarkan kepadatan
Dalam contoh ini, kumpulan pada asasnya ditakrifkan sebagai kawasan dengan ketaktelapan yang lebih tinggi daripada set data yang lain. Objek dalam bahagian jarang ini, yang diperlukan untuk memisahkan semua komponen, biasanya dianggap sebagai titik bunyi dan tepi.
Kaedah pengelompokan berasaskan kepadatan yang paling popular ialah DBSCAN (Algoritma Pengelompokan Bunyi Spatial). Tidak seperti kebanyakan kaedah baharu, ia mempunyai komponen kluster yang jelas dipanggil "kebolehcapaian ketumpatan". Sama seperti pengelompokan berasaskan pautan, ia berdasarkan titik sambungan dalam ambang jarak tertentu. Walau bagaimanapun, kaedah ini hanya mengumpul item yang memenuhi kriteria ketumpatan. Dalam versi asal, ditakrifkan sebagai bilangan minimum objek lain dalam jejari ini, gugusan terdiri daripada semuaitem berkaitan ketumpatan (yang boleh membentuk kumpulan bentuk bebas, tidak seperti kebanyakan kaedah lain), dan semua objek yang berada dalam julat yang dibenarkan.
Satu lagi sifat menarik DBSCAN ialah kerumitannya agak rendah - ia memerlukan bilangan pertanyaan julat linear terhadap pangkalan data. Dan juga luar biasa ialah ia akan menemui hasil yang sama pada dasarnya (ini adalah deterministik untuk titik teras dan hingar, tetapi bukan untuk elemen sempadan) dalam setiap larian. Oleh itu, tidak perlu menjalankannya beberapa kali.
Kelemahan utama DBSCAN dan OPTICS ialah mereka menjangkakan sedikit penurunan ketumpatan untuk mengesan sempadan kelompok. Contohnya, dalam set data dengan taburan Gaussian yang bertindih-kes penggunaan biasa untuk objek tiruan-sempadan kelompok yang dijana oleh algoritma ini selalunya kelihatan sewenang-wenangnya. Ini berlaku kerana ketumpatan kumpulan semakin berkurangan. Dan dalam set data campuran Gaussian, algoritma ini hampir selalu mengatasi prestasi kaedah seperti pengelompokan EM, yang dapat memodelkan jenis sistem ini dengan tepat.
Min anjakan ialah pendekatan pengelompokan di mana setiap objek bergerak ke kawasan paling padat dalam kejiranan berdasarkan anggaran keseluruhan kernel. Pada akhirnya, objek menumpu kepada maksimum ketaktembusan tempatan. Sama seperti pengelompokan k-means, "penarik ketumpatan" ini boleh berfungsi sebagai wakil untuk set data. Tetapi pergeseran minboleh mengesan gugusan berbentuk sewenang-wenangnya serupa dengan DBSCAN. Disebabkan oleh prosedur berulang yang mahal dan anggaran ketumpatan, anjakan purata biasanya lebih perlahan daripada DBSCAN atau k-Means. Selain itu, kebolehgunaan algoritma anjakan biasa kepada data berdimensi tinggi adalah sukar disebabkan oleh kelakuan tidak seragam anggaran ketumpatan kernel, yang membawa kepada pemecahan ekor kelompok yang berlebihan.
Penilaian
Mengesahkan hasil pengelompokan adalah sesukar pengelompokan itu sendiri. Pendekatan popular termasuk pemarkahan "dalaman" (di mana sistem dikurangkan kepada satu ukuran kualiti) dan, sudah tentu, pemarkahan "luaran" (di mana pengelompokan dibandingkan dengan klasifikasi "kebenaran asas" sedia ada). Dan skor manual pakar manusia dan skor tidak langsung didapati dengan memeriksa kegunaan pengelompokan dalam aplikasi yang dimaksudkan.
Langkah bendera dalaman mengalami masalah kerana ia mewakili ciri yang boleh dianggap sebagai sasaran pengelompokan. Sebagai contoh, adalah mungkin untuk mengumpulkan data yang diberikan oleh pekali Silhouette, kecuali tiada algoritma cekap yang diketahui untuk berbuat demikian. Menggunakan ukuran dalaman sedemikian untuk penilaian, adalah lebih baik untuk membandingkan persamaan masalah pengoptimuman.
Tanda luar mempunyai masalah yang sama. Jika terdapat label "kebenaran asas" sedemikian, maka tidak perlu berkelompok. Dan dalam aplikasi praktikal, biasanya tiada konsep sedemikian. Sebaliknya, label mencerminkan hanya satu pembahagian yang mungkin bagi set data, yang tidak bermaknabahawa tidak ada kumpulan lain (mungkin lebih baik).
Jadi, tiada satu pun daripada pendekatan ini akhirnya boleh menilai kualiti sebenar. Tetapi ini memerlukan penilaian manusia, yang sangat subjektif. Namun begitu, statistik sedemikian boleh menjadi bermaklumat dalam mengenal pasti kelompok yang tidak baik. Tetapi seseorang tidak seharusnya menolak penilaian subjektif seseorang.
Tanda dalam
Apabila hasil pengelompokan dinilai berdasarkan data yang telah dikelompokkan sendiri, ini dirujuk sebagai istilah ini. Kaedah ini biasanya memberikan hasil terbaik kepada algoritma yang mencipta kumpulan dengan persamaan yang tinggi dalam dan rendah antara kumpulan. Salah satu kelemahan menggunakan kriteria dalaman dalam penilaian kluster ialah markah yang tinggi tidak semestinya membawa kepada aplikasi pencarian maklumat yang berkesan. Selain itu, skor ini berat sebelah terhadap algoritma yang menggunakan model yang sama. Contohnya, k-means clustering secara semula jadi mengoptimumkan jarak ciri, dan kriteria dalaman berdasarkannya berkemungkinan terlalu tinggi terhadap clustering yang terhasil.
Oleh itu, langkah penilaian ini paling sesuai untuk mendapatkan idea tentang situasi di mana satu algoritma berprestasi lebih baik daripada yang lain. Tetapi ini tidak bermakna bahawa setiap maklumat memberikan hasil yang lebih dipercayai daripada yang lain. Tempoh sah yang diukur oleh indeks sedemikian bergantung pada penegasan bahawa struktur itu wujud dalam set data. Algoritma yang dibangunkan untuk beberapa jenis tidak mempunyai peluang jika set mengandungi secara radikalkomposisi yang berbeza atau jika penilaian mengukur kriteria yang berbeza. Sebagai contoh, k-means clustering hanya boleh mencari gugusan cembung, dan banyak indeks skor menganggap format yang sama. Dalam set data dengan model bukan cembung, adalah tidak sesuai untuk menggunakan k-means dan kriteria penilaian biasa.
Penilaian luaran
Dengan bebola jenis ini, hasil pengelompokan dinilai berdasarkan data yang tidak digunakan untuk pengumpulan. Iaitu, seperti label kelas yang diketahui dan ujian luaran. Soalan sedemikian terdiri daripada satu set item yang telah dikelaskan dan selalunya dicipta oleh pakar (manusia). Oleh itu, kit rujukan boleh dilihat sebagai standard emas untuk penilaian. Kaedah pemarkahan jenis ini mengukur jarak pengelompokan dengan kelas rujukan yang diberikan. Walau bagaimanapun, baru-baru ini telah dibincangkan sama ada ini mencukupi untuk data sebenar atau hanya untuk set sintetik dengan kebenaran asas sebenar. Memandangkan kelas mungkin mengandungi struktur dalaman, dan atribut sedia ada mungkin tidak membenarkan pengasingan kelompok. Selain itu, dari sudut penemuan pengetahuan, menghasilkan semula fakta yang diketahui mungkin tidak semestinya menghasilkan hasil yang diharapkan. Dalam senario pengelompokan terkekang khas yang mana maklumat meta (seperti label kelas) sudah digunakan dalam proses pengumpulan, adalah tidak penting untuk mengekalkan semua maklumat untuk tujuan penilaian.
Kini jelas perkara yang tidak terpakai pada kaedah pengelompokan dan model yang digunakan untuk tujuan ini.