Penskalaan berbilang dimensi: definisi, matlamat, objektif dan contoh

Isi kandungan:

Penskalaan berbilang dimensi: definisi, matlamat, objektif dan contoh
Penskalaan berbilang dimensi: definisi, matlamat, objektif dan contoh
Anonim

Penskalaan pelbagai variasi (MDS) ialah alat untuk menggambarkan tahap persamaan kes individu dalam set data. Ia merujuk kepada satu set kaedah pentahbisan berkaitan yang digunakan dalam visualisasi maklumat, khususnya untuk memaparkan maklumat yang terkandung dalam matriks jarak. Ini adalah satu bentuk pengurangan dimensi bukan linear. Algoritma MDS bertujuan untuk meletakkan setiap objek dalam ruang N-dimensi sedemikian rupa sehingga jarak antara objek dipelihara sebaik mungkin. Setiap objek kemudiannya diberikan koordinat dalam setiap dimensi N.

Bilangan dimensi graf MDS boleh melebihi 2 dan dinyatakan secara priori. Memilih N=2 mengoptimumkan peletakan objek untuk plot serakan 2D. Anda boleh melihat contoh penskalaan berbilang dimensi dalam gambar dalam artikel. Contoh dengan simbol dalam bahasa Rusia sangat menggambarkan.

Penskalaan pelbagai dimensi
Penskalaan pelbagai dimensi

Esen

Kaedah penskalaan berbilang dimensi (MMS,MDS) ialah set lanjutan alat klasik yang menyamaratakan prosedur pengoptimuman untuk satu set fungsi kehilangan dan matriks input jarak yang diketahui dengan pemberat dan sebagainya. Dalam konteks ini, fungsi kehilangan yang berguna dipanggil tekanan, yang sering diminimumkan oleh prosedur yang dipanggil pengkhususan tekanan.

Manual

Terdapat beberapa pilihan untuk penskalaan berbilang dimensi. Program MDS secara automatik meminimumkan beban untuk mendapatkan penyelesaian. Teras algoritma MDS bukan metrik ialah proses pengoptimuman dua kali ganda. Pertama, transformasi kedekatan monotonik yang optimum mesti ditemui. Kedua, titik konfigurasi mesti diposisikan secara optimum supaya jaraknya sepadan dengan nilai kedekatan berskala sedekat mungkin.

Contoh penskalaan pelbagai dimensi
Contoh penskalaan pelbagai dimensi

Peluasan

Pelanjutan penskalaan berbilang dimensi metrik dalam statistik dengan ruang sasaran ialah ruang bukan Euclidean licin sewenang-wenangnya. Di mana perbezaan adalah jarak pada permukaan dan ruang sasaran adalah permukaan yang berbeza. Program tematik membolehkan anda mencari lampiran dengan herotan minimum satu permukaan ke permukaan yang lain.

Langkah

Terdapat beberapa langkah dalam menjalankan kajian menggunakan penskalaan multivariate:

  1. Perumusan masalah. Apakah pembolehubah yang ingin anda bandingkan? Berapa banyak pembolehubah yang anda ingin bandingkan? Untuk tujuan apakah kajian itu akan digunakan?
  2. Mendapatkan data input. Responden diajukan beberapa soalan. Bagi setiap pasangan produk, mereka diminta untuk menilai persamaan (biasanya pada skala Likert 7 mata daripada sangat serupa kepada sangat tidak serupa). Soalan pertama mungkin untuk Coca-Cola/Pepsi, contohnya, yang seterusnya untuk bir, yang seterusnya untuk Dr. Pepper, dll. Bilangan soalan bergantung pada bilangan jenama.
Penskalaan jarak
Penskalaan jarak

Pendekatan alternatif

Terdapat dua pendekatan lain. Terdapat teknik yang dipanggil "Data Persepsi: Pendekatan Terbitan" di mana produk diuraikan kepada atribut dan penilaian dilakukan pada skala pembezaan semantik. Kaedah lain ialah "pendekatan data keutamaan", di mana responden ditanya tentang keutamaan dan bukannya persamaan.

Ia terdiri daripada langkah berikut:

  1. Melancarkan program statistik MDS. Perisian untuk melaksanakan prosedur tersedia dalam banyak pakej perisian statistik. Selalunya terdapat pilihan antara MDS metrik (yang memperkatakan data tahap selang atau nisbah) dan MDS bukan metrik (yang memperkatakan data ordinal).
  2. Menentukan bilangan ukuran. Pengkaji mesti menentukan bilangan ukuran yang ingin dibuatnya pada komputer. Lebih banyak ukuran, lebih baik kesesuaian statistik, tetapi lebih sukar untuk mentafsir keputusan.
  3. Paparkan hasil dan tentukan ukuran - program statistik (atau modul berkaitan) akan memaparkan hasilnya. Peta akan memaparkan setiap produk (biasanya dalam 2D).ruang). Kedekatan produk antara satu sama lain menunjukkan sama ada persamaan atau keutamaan mereka, bergantung pada pendekatan yang digunakan. Walau bagaimanapun, cara pengukuran sebenarnya sepadan dengan ukuran tingkah laku sistem tidak selalunya jelas. Pertimbangan subjektif tentang pematuhan boleh dibuat di sini.
  4. Semak keputusan untuk kebolehpercayaan dan kesahihan - kira R-kuadrat untuk menentukan perkadaran varians data berskala yang boleh diambil kira oleh prosedur MDS. Square R 0.6 dianggap sebagai tahap minimum yang boleh diterima. R kuasa dua 0.8 dianggap baik untuk penskalaan metrik, manakala 0.9 dianggap baik untuk penskalaan bukan metrik.
Hasil penskalaan berbilang variasi
Hasil penskalaan berbilang variasi

Pelbagai ujian

Ujian lain yang mungkin adalah ujian tekanan jenis Kruskal, ujian data belah, ujian kestabilan data dan ujian kebolehpercayaan ujian semula. Tulis secara terperinci tentang keputusan dalam ujian. Bersama-sama dengan pemetaan, sekurang-kurangnya ukuran jarak (cth indeks Sorenson, indeks Jaccard) dan kebolehpercayaan (cth nilai tegasan) hendaklah dinyatakan.

Adalah juga sangat wajar untuk memberikan algoritma (cth. Kruskal, Mather) yang sering ditentukan oleh atur cara yang digunakan (kadangkala menggantikan laporan algoritma), jika anda telah memberikan konfigurasi permulaan atau mempunyai pilihan rawak, nombor larian dimensi, hasil Monte Carlo, bilangan lelaran, skor kestabilan dan varians berkadar setiap paksi (r-persegi).

Maklumat visual dan kaedah analisis datapenskalaan berbilang dimensi

Visualisasi maklumat ialah kajian representasi interaktif (visual) data abstrak untuk meningkatkan kognisi manusia. Data abstrak termasuk data berangka dan bukan angka seperti maklumat teks dan geografi. Walau bagaimanapun, visualisasi maklumat berbeza daripada visualisasi saintifik: "ia adalah maklumat (visualisasi maklumat) apabila perwakilan spatial dipilih dan scivis (visualisasi saintifik) apabila perwakilan spatial diberikan."

Bidang visualisasi maklumat muncul daripada penyelidikan dalam interaksi manusia-komputer, aplikasi sains komputer, grafik, reka bentuk visual, psikologi dan kaedah perniagaan. Ia semakin digunakan sebagai komponen penting dalam penyelidikan saintifik, perpustakaan digital, perlombongan data, data kewangan, penyelidikan pasaran, kawalan pengeluaran dan sebagainya.

Kaedah dan prinsip

Visualisasi maklumat mencadangkan bahawa kaedah visualisasi dan interaksi memanfaatkan kekayaan persepsi manusia, membolehkan pengguna melihat, meneroka dan memahami sejumlah besar maklumat secara serentak. Visualisasi maklumat bertujuan untuk mencipta pendekatan untuk menyampaikan data abstrak, maklumat dengan cara yang intuitif.

Penskalaan pelbagai dimensi warna
Penskalaan pelbagai dimensi warna

Analisis data ialah bahagian penting dalam semua penyelidikan gunaan dan penyelesaian masalah dalam industri. PalingPendekatan asas kepada analisis data ialah visualisasi (histogram, plot taburan, plot permukaan, peta pokok, plot koordinat selari, dll.), statistik (ujian hipotesis, regresi, PCA, dll.), analisis data (padanan, dll.)..d.) dan kaedah pembelajaran mesin (pengelompokan, pengelasan, pokok keputusan, dll.).

Antara pendekatan ini, visualisasi maklumat atau analisis data visual adalah yang paling bergantung pada kemahiran kognitif kakitangan analisis dan membolehkan penemuan cerapan boleh tindakan tidak berstruktur yang hanya dihadkan oleh imaginasi dan kreativiti manusia. Seorang penganalisis tidak perlu mempelajari sebarang teknik yang kompleks untuk dapat mentafsir visualisasi data. Visualisasi maklumat juga merupakan skema penjanaan hipotesis yang boleh dan biasanya disertakan dengan analisis yang lebih analitikal atau formal seperti ujian hipotesis statistik.

Kajian

Kajian moden visualisasi bermula dengan grafik komputer, yang "sejak awal lagi digunakan untuk mengkaji masalah saintifik. Walau bagaimanapun, pada tahun-tahun awal, kekurangan kuasa grafik sering mengehadkan kegunaannya. Keutamaan pada visualisasi bermula untuk dibangunkan pada tahun 1987, dengan keluaran perisian khas untuk Grafik Komputer dan Visualisasi dalam Pengkomputeran Saintifik Sejak itu, terdapat beberapa persidangan dan bengkel yang dianjurkan bersama oleh Persatuan Komputer IEEE dan ACM SIGGRAPH".

Mereka merangkumi topik umum visualisasi data, visualisasi maklumat dan visualisasi saintifik,serta kawasan yang lebih khusus seperti pemaparan volum.

Penskalaan jenama pelbagai dimensi
Penskalaan jenama pelbagai dimensi

Ringkasan

Penskalaan Berbilang Dimensi Umum (GMDS) ialah lanjutan daripada penskalaan berbilang dimensi metrik dengan ruang sasaran bukan Euclidean. Apabila perbezaan adalah jarak pada permukaan dan ruang sasaran adalah permukaan lain, GMDS membenarkan anda mencari sarang satu permukaan ke permukaan yang lain dengan herotan yang minimum.

GMDS ialah barisan penyelidikan baharu. Pada masa ini, aplikasi utama ialah pengecaman objek boleh ubah bentuk (contohnya, untuk pengecaman muka 3D) dan pemetaan tekstur.

Tujuan penskalaan berbilang dimensi adalah untuk mewakili data berbilang dimensi. Data multidimensi, iaitu, data yang memerlukan lebih daripada dua atau tiga dimensi untuk diwakili, boleh menjadi sukar untuk ditafsirkan. Satu pendekatan untuk memudahkan adalah dengan menganggap bahawa data yang diminati terletak pada manifold bukan linear terbenam dalam ruang dimensi tinggi. Jika pengumpul mempunyai dimensi yang cukup rendah, data boleh divisualisasikan dalam ruang dimensi rendah.

Banyak kaedah pengurangan dimensi bukan linear berkaitan dengan kaedah linear. Kaedah bukan linear boleh dikelaskan secara meluas kepada dua kumpulan: kaedah yang menyediakan pemetaan (sama ada dari ruang dimensi tinggi kepada pembenaman dimensi rendah, atau sebaliknya), dan kaedah yang hanya menyediakan visualisasi. Dalam konteks pembelajaran mesin, kaedah pemetaan boleh dilihat sebagaiperingkat awal pengekstrakan ciri, selepas itu algoritma pengecaman corak digunakan. Biasanya yang hanya memberikan visualisasi adalah berdasarkan data kedekatan - iaitu ukuran jarak. Penskalaan multidimensi juga agak biasa dalam psikologi dan kemanusiaan lain.

Penskalaan berbilang dimensi pepenjuru
Penskalaan berbilang dimensi pepenjuru

Jika bilangan atribut adalah besar, maka ruang rentetan unik yang mungkin juga besar secara eksponen. Oleh itu, semakin besar dimensi, semakin sukar untuk menggambarkan ruang. Ini menyebabkan banyak masalah. Algoritma yang beroperasi pada data berdimensi tinggi cenderung mempunyai kerumitan masa yang sangat tinggi. Mengurangkan data kepada lebih sedikit dimensi selalunya menjadikan algoritma analisis lebih cekap dan boleh membantu algoritma pembelajaran mesin membuat ramalan yang lebih tepat. Itulah sebabnya penskalaan data berbilang dimensi sangat popular.

Disyorkan: