Regression logistik: model dan kaedah

Isi kandungan:

Regression logistik: model dan kaedah
Regression logistik: model dan kaedah
Anonim

Kaedah regresi logistik dan analisis diskriminasi digunakan apabila perlu untuk membezakan responden dengan jelas mengikut kategori sasaran. Dalam kes ini, kumpulan itu sendiri diwakili oleh tahap satu parameter varian tunggal. Mari kita lihat dengan lebih dekat model regresi logistik dan ketahui sebab ia diperlukan.

regresi logistik
regresi logistik

Maklumat am

Contoh masalah di mana regresi logistik digunakan ialah pengkelasan responden kepada kumpulan yang membeli dan tidak membeli sawi. Pembezaan dijalankan mengikut ciri sosio-demografi. Ini termasuk, khususnya, umur, jantina, bilangan saudara, pendapatan, dsb. Dalam operasi, terdapat kriteria pembezaan dan pembolehubah. Yang terakhir mengekodkan kategori sasaran yang sebenarnya, responden harus dibahagikan.

Nuansa

Perlu dikatakan bahawa julat kes di mana regresi logistik digunakan adalah lebih sempit berbanding analisis diskriminasi. Dalam hal ini, penggunaan yang terakhir sebagai kaedah pembezaan universal dipertimbangkanlebih diutamakan. Selain itu, pakar mengesyorkan memulakan kajian klasifikasi dengan analisis diskriminasi. Dan hanya dalam kes ketidakpastian tentang keputusan, anda boleh menggunakan regresi logistik. Keperluan ini disebabkan oleh beberapa faktor. Regresi logistik digunakan apabila terdapat pemahaman yang jelas tentang jenis pembolehubah bebas dan bersandar. Sehubungan itu, salah satu daripada 3 prosedur yang mungkin dipilih. Dalam analisis diskriminasi, penyelidik sentiasa berurusan dengan satu operasi statik. Ia melibatkan satu pembolehubah kategori bersandar dan beberapa tidak bersandar dengan sebarang jenis skala.

Paparan

Tugas kajian statistik yang menggunakan regresi logistik adalah untuk menentukan kebarangkalian bahawa responden tertentu akan diberikan kepada kumpulan tertentu. Pembezaan dijalankan mengikut parameter tertentu. Dalam amalan, mengikut nilai satu atau lebih faktor bebas, adalah mungkin untuk mengklasifikasikan responden kepada dua kumpulan. Dalam kes ini, regresi logistik binari berlaku. Juga, parameter yang ditentukan boleh digunakan apabila membahagikan kepada kumpulan lebih daripada dua. Dalam keadaan sedemikian, regresi logistik multinomial berlaku. Kumpulan yang terhasil dinyatakan dalam tahap pembolehubah tunggal.

regresi logistik
regresi logistik

Contoh

Katakan terdapat jawapan responden kepada soalan sama ada mereka berminat dengan tawaran untuk membeli plot tanah di pinggir bandar Moscow. Pilihannya ialah "tidak"dan ya. Adalah perlu untuk mengetahui faktor mana yang mempunyai pengaruh utama terhadap keputusan bakal pembeli. Untuk melakukan ini, responden ditanya soalan tentang infrastruktur wilayah, jarak ke ibu kota, kawasan tapak, kehadiran / ketiadaan bangunan kediaman, dll. Menggunakan regresi binari, adalah mungkin untuk mengedarkan responden kepada dua kumpulan. Yang pertama akan termasuk mereka yang berminat dalam pemerolehan - pembeli berpotensi, dan yang kedua, masing-masing, mereka yang tidak berminat dengan tawaran sedemikian. Bagi setiap responden, sebagai tambahan, kebarangkalian untuk diberikan kepada satu atau kategori lain akan dikira.

Ciri perbandingan

Perbezaan daripada dua pilihan di atas ialah bilangan kumpulan yang berbeza dan jenis pembolehubah bersandar dan tidak bersandar. Dalam regresi binari, sebagai contoh, pergantungan faktor dikotomi pada satu atau lebih keadaan bebas dikaji. Lebih-lebih lagi, yang terakhir boleh mempunyai apa-apa jenis skala. Regresi multinomial dianggap sebagai variasi pilihan pengelasan ini. Di dalamnya, lebih daripada 2 kumpulan tergolong dalam pembolehubah bersandar. Faktor bebas mesti mempunyai sama ada skala ordinal atau nominal.

Regresi logistik dalam spss

Dalam pakej statistik 11-12 versi analisis baharu telah diperkenalkan - ordinal. Kaedah ini digunakan apabila faktor bersandar tergolong dalam skala nama (ordinal) yang sama. Dalam kes ini, pembolehubah bebas dipilih daripada satu jenis tertentu. Mereka mestilah sama ada ordinal atau nominal. Pengelasan kepada beberapa kategori dianggap paling banyaksejagat. Kaedah ini boleh digunakan dalam semua kajian yang menggunakan regresi logistik. Walau bagaimanapun, satu-satunya cara untuk meningkatkan kualiti model adalah dengan menggunakan ketiga-tiga teknik.

semakan kualiti yang mencukupi dan regresi logistik
semakan kualiti yang mencukupi dan regresi logistik

Klasifikasi ordinal

Perlu dikatakan bahawa sebelum ini dalam pakej statistik tidak ada kemungkinan tipikal untuk melakukan analisis khusus untuk faktor bergantung dengan skala ordinal. Untuk semua pembolehubah dengan lebih daripada 2 kumpulan, varian multinominal telah digunakan. Analisis ordinal yang diperkenalkan baru-baru ini mempunyai beberapa ciri. Mereka mengambil kira spesifik skala. Sementara itu, dalam alat bantu mengajar, regresi logistik ordinal selalunya tidak dianggap sebagai teknik yang berasingan. Ini disebabkan oleh perkara berikut: analisis ordinal tidak mempunyai kelebihan ketara berbanding multinomial. Penyelidik mungkin menggunakan yang terakhir dengan kehadiran kedua-dua pembolehubah bersandar ordinal dan nominal. Pada masa yang sama, proses klasifikasi itu sendiri hampir tidak berbeza antara satu sama lain. Ini bermakna bahawa melakukan analisis ordinal tidak akan menyebabkan sebarang kesulitan.

Pilihan analisis

Mari kita pertimbangkan kes mudah - regresi binari. Katakan, dalam proses penyelidikan pemasaran, permintaan untuk graduan universiti metropolitan tertentu dinilai. Dalam soal selidik, responden telah ditanya soalan, termasuk:

  1. Adakah anda bekerja? (ql).
  2. Masukkan tahun tamat pengajian (q 21).
  3. Berapakah puratamarkah tamat pengajian (aver).
  4. Jantina (q22).

Regresi logistik akan menilai kesan faktor bebas aver, q 21 dan q 22 ke atas pembolehubah ql. Ringkasnya, tujuan analisis adalah untuk menentukan kemungkinan pekerjaan graduan berdasarkan maklumat tentang bidang, tahun tamat pengajian dan GPA.

penunjuk regresi sigmoid logistik
penunjuk regresi sigmoid logistik

Regression Logistik

Untuk menetapkan parameter menggunakan regresi binari, gunakan menu Analyze►Regression►Binary Logistic. Dalam tetingkap Regresi Logistik, pilih faktor bergantung daripada senarai pembolehubah yang tersedia di sebelah kiri. Ia adalah ql. Pembolehubah ini mesti diletakkan dalam medan Bergantung. Selepas itu, adalah perlu untuk memperkenalkan faktor bebas ke dalam plot Covariates - q 21, q 22, aver. Kemudian anda perlu memilih cara memasukkannya dalam analisis anda. Jika bilangan faktor bebas adalah lebih daripada 2, maka kaedah pengenalan serentak semua pembolehubah, yang ditetapkan secara lalai, digunakan, tetapi langkah demi langkah. Cara yang paling popular ialah Backward:LR. Menggunakan butang Pilih, anda boleh memasukkan dalam kajian bukan semua responden, tetapi hanya kategori sasaran tertentu.

Tentukan Pembolehubah Kategori

Butang Kategori harus digunakan apabila salah satu pembolehubah bebas adalah nominal dengan lebih daripada 2 kategori. Dalam situasi ini, dalam tetingkap Define Categorical Variables, hanya parameter sedemikian diletakkan pada bahagian Categorical Covariates. Dalam contoh ini, tiada pembolehubah sedemikian. Selepas itu, dalam senarai juntai bawah Kontras berikutpilih item Sisihan dan tekan butang Tukar. Hasilnya, beberapa pembolehubah bersandar akan terbentuk daripada setiap faktor nominal. Nombornya sepadan dengan bilangan kategori syarat awal.

Simpan Pembolehubah Baharu

Menggunakan butang Simpan dalam kotak dialog utama kajian, penciptaan parameter baharu ditetapkan. Ia akan mengandungi penunjuk yang dikira dalam proses regresi. Khususnya, anda boleh membuat pembolehubah yang mentakrifkan:

  1. Tergolong dalam kategori klasifikasi tertentu (Keahlian Kumpulan).
  2. Kebarangkalian untuk memberikan responden kepada setiap kumpulan kajian (Kebarangkalian).

Apabila menggunakan butang Pilihan, penyelidik tidak mendapat sebarang pilihan penting. Sehubungan itu, ia boleh diabaikan. Selepas mengklik butang "OK", hasil analisis akan dipaparkan dalam tetingkap utama.

pekali regresi logistik
pekali regresi logistik

Pemeriksaan kualiti untuk kecukupan dan regresi logistik

Pertimbangkan jadual Omnibus Testsof Model Coefficients. Ia memaparkan hasil analisis kualiti anggaran model. Disebabkan oleh fakta bahawa pilihan langkah demi langkah telah ditetapkan, anda perlu melihat keputusan peringkat terakhir (Langkah2). Keputusan positif akan dipertimbangkan jika peningkatan dalam penunjuk Khi kuasa dua didapati apabila bergerak ke peringkat seterusnya pada tahap keertian yang tinggi (Sig. < 0.05). Kualiti model dinilai dalam baris Model. Jika nilai negatif diperoleh, tetapi ia tidak dianggap signifikan dengan materialiti tinggi keseluruhan model, yang terakhirboleh dianggap sesuai secara praktikal.

Meja

Ringkasan Model membolehkan anda menganggarkan jumlah indeks varians, yang diterangkan oleh model yang dibina (indeks R Square). Adalah disyorkan untuk menggunakan nilai Nagelker. Parameter Nagelkerke R Square boleh dianggap sebagai penunjuk positif jika ia melebihi 0.50. Selepas itu, keputusan klasifikasi dinilai, di mana penunjuk sebenar kepunyaan satu atau kategori lain yang dikaji dibandingkan dengan yang diramalkan berdasarkan model regresi. Untuk ini, Jadual Pengelasan digunakan. Ia juga membolehkan kami membuat kesimpulan tentang ketepatan pembezaan bagi setiap kumpulan yang sedang dipertimbangkan.

model regresi logistik
model regresi logistik

Jadual berikut memberi peluang untuk mengetahui kepentingan statistik faktor bebas yang dimasukkan ke dalam analisis, serta setiap pekali regresi logistik bukan piawai. Berdasarkan penunjuk ini, adalah mungkin untuk meramalkan kepunyaan setiap responden dalam sampel kepada kumpulan tertentu. Menggunakan butang Simpan, anda boleh memasukkan pembolehubah baharu. Mereka akan mengandungi maklumat tentang tergolong dalam kategori pengelasan tertentu (Kategori Diramalkan) dan kebarangkalian untuk dimasukkan ke dalam kumpulan ini (Keahlian kebarangkalian diramalkan). Selepas mengklik "OK", hasil pengiraan akan muncul dalam tetingkap utama Regresi Logistik Berbilangnomi.

Jadual pertama, yang mengandungi penunjuk penting untuk penyelidik, ialah Maklumat Pemasangan Model. Tahap kepentingan statistik yang tinggi akan menunjukkan kualiti yang tinggi dankesesuaian menggunakan model dalam menyelesaikan masalah praktikal. Satu lagi jadual penting ialah Pseudo R-Square. Ia membolehkan anda menganggarkan bahagian jumlah varians dalam faktor bersandar, yang ditentukan oleh pembolehubah bebas yang dipilih untuk dianalisis. Menurut jadual Ujian Nisbah Kemungkinan, kita boleh membuat kesimpulan tentang kepentingan statistik yang terakhir. Anggaran Parameter mencerminkan pekali bukan piawai. Ia digunakan dalam pembinaan persamaan. Di samping itu, bagi setiap gabungan pembolehubah, kepentingan statistik kesannya terhadap faktor bersandar telah ditentukan. Sementara itu, dalam penyelidikan pemasaran, selalunya menjadi perlu untuk membezakan responden mengikut kategori bukan secara individu, tetapi sebagai sebahagian daripada kumpulan sasaran. Untuk ini, jadual Observedand Predicted Frequencies digunakan.

Aplikasi praktikal

Kaedah analisis yang dipertimbangkan digunakan secara meluas dalam kerja peniaga. Pada tahun 1991, penunjuk regresi sigmoid logistik telah dibangunkan. Ia adalah alat yang mudah digunakan dan berkesan untuk meramalkan kemungkinan harga sebelum "terlalu panas". Penunjuk ditunjukkan pada carta sebagai saluran yang dibentuk oleh dua garis selari. Mereka sama dijarakkan dari arah aliran. Lebar koridor akan bergantung sepenuhnya pada jangka masa. Penunjuk digunakan apabila bekerja dengan hampir semua aset - daripada pasangan mata wang kepada logam berharga.

regresi logistik dalam spss
regresi logistik dalam spss

Dalam amalan, 2 strategi utama untuk menggunakan instrumen telah dibangunkan: untuk pelarian danuntuk giliran. Dalam kes kedua, peniaga akan memberi tumpuan kepada dinamik perubahan harga dalam saluran. Apabila nilai menghampiri garis sokongan atau rintangan, pertaruhan diletakkan pada kemungkinan pergerakan akan bermula ke arah yang bertentangan. Jika harga mendekati sempadan atas, maka anda boleh menyingkirkan aset tersebut. Jika ia berada pada had yang lebih rendah, maka anda harus berfikir tentang pembelian. Strategi pelarian melibatkan penggunaan pesanan. Mereka dipasang di luar had pada jarak yang agak kecil. Dengan mengambil kira bahawa harga dalam beberapa kes melanggarnya untuk masa yang singkat, anda harus bermain selamat dan menetapkan henti kerugian. Pada masa yang sama, sudah tentu, tanpa mengira strategi yang dipilih, peniaga perlu melihat dan menilai situasi yang timbul di pasaran setenang mungkin.

Kesimpulan

Oleh itu, penggunaan regresi logistik membolehkan anda dengan cepat dan mudah mengklasifikasikan responden ke dalam kategori mengikut parameter yang diberikan. Apabila menganalisis, anda boleh menggunakan mana-mana kaedah tertentu. Khususnya, regresi multinomial adalah universal. Walau bagaimanapun, pakar mengesyorkan menggunakan semua kaedah yang diterangkan di atas dalam kombinasi. Ini disebabkan oleh fakta bahawa dalam kes ini kualiti model akan jauh lebih tinggi. Ini, seterusnya, akan mengembangkan julat aplikasinya.

Disyorkan: