Pemodelan statistik: kaedah, penerangan, aplikasi

Isi kandungan:

Pemodelan statistik: kaedah, penerangan, aplikasi
Pemodelan statistik: kaedah, penerangan, aplikasi
Anonim

Andaian yang terkandung dalam pemodelan statistik menerangkan satu set taburan kebarangkalian, beberapa daripadanya diandaikan menghampiri taburan yang mencukupi. Satu set data tertentu dipilih daripada definisi. Taburan kebarangkalian yang wujud dalam pemodelan statistik ialah perkara yang membezakan model statistik daripada model matematik bukan statistik yang lain.

Image
Image

Sambungan dengan matematik

Kaedah saintifik ini berakar umbi terutamanya dalam matematik. Pemodelan statistik sistem biasanya diberikan oleh persamaan matematik yang mengaitkan satu atau lebih pembolehubah rawak dan mungkin pembolehubah bukan rawak yang lain. Oleh itu, model statistik ialah "perwakilan formal bagi teori" (Hermann Ader, memetik Kenneth Bollen).

Semua ujian hipotesis statistik dan semua anggaran statistik diperoleh daripada model statistik. Secara umumnya, model statistik adalah sebahagian daripada asas inferens statistik.

Kaedah statistikpemodelan

Secara tidak formal, model statistik boleh dianggap sebagai andaian statistik (atau set andaian statistik) dengan sifat tertentu: andaian ini membolehkan kita mengira kebarangkalian sebarang peristiwa. Sebagai contoh, pertimbangkan sepasang dadu enam segi biasa. Kami akan mengkaji dua andaian statistik yang berbeza tentang tulang.

Andaian statistik pertama membentuk model statistik, kerana dengan hanya satu andaian kita boleh mengira kebarangkalian sebarang peristiwa. Andaian statistik alternatif tidak membentuk model statistik, kerana dengan hanya satu andaian kita tidak boleh mengira kebarangkalian setiap peristiwa.

Model statistik biasa
Model statistik biasa

Dalam contoh di atas dengan andaian pertama, adalah mudah untuk mengira kebarangkalian sesuatu peristiwa. Walau bagaimanapun, dalam beberapa contoh lain, pengiraan mungkin rumit atau bahkan tidak praktikal (contohnya, ia mungkin memerlukan pengiraan berjuta-juta tahun). Untuk andaian yang membentuk model statistik, kesukaran ini boleh diterima: melakukan pengiraan tidak semestinya boleh dilaksanakan secara praktikal, hanya mungkin secara teori.

Contoh model

Andaikan kita mempunyai populasi pelajar sekolah dengan anak yang diagihkan sama rata. Ketinggian kanak-kanak akan dikaitkan secara stokastik dengan umur: sebagai contoh, apabila kita mengetahui bahawa kanak-kanak berumur 7 tahun, ini menjejaskan kebarangkalian bahawa kanak-kanak itu tingginya 5 kaki (kira-kira 152 cm). Kita boleh memformalkan hubungan ini dalam model regresi linear, contohnya: pertumbuhan=b0 + b1agei+ εi, di mana b0 ialah persilangan, b1 ialah parameter yang mana umur didarabkan apabila mendapatkan ramalan pertumbuhan, εi ialah istilah ralat. Ini menunjukkan bahawa ketinggian diramal mengikut umur dengan sedikit ralat.

Model yang sah mesti sepadan dengan semua titik data. Jadi garis lurus (heighti=b0 + b1agei) tidak boleh menjadi persamaan untuk model data - melainkan ia sesuai dengan semua titik data dengan tepat, iaitu semua titik data terletak dengan sempurna pada garisan. Istilah ralat εi mesti disertakan dalam persamaan untuk model muat semua titik data.

statistik jantina
statistik jantina

Untuk membuat inferens statistik, kita perlu mengandaikan beberapa taburan kebarangkalian untuk εi terlebih dahulu. Sebagai contoh, kita boleh mengandaikan bahawa taburan εi ialah Gaussian, dengan min sifar. Dalam kes ini, model akan mempunyai 3 parameter: b0, b1 dan varians taburan Gaussian.

Perihalan Umum

Model statistik ialah kelas khas model matematik. Apa yang membezakan model statistik daripada model matematik lain ialah ia bukan deterministik. Ia digunakan untuk memodelkan data statistik. Oleh itu, dalam model statistik yang ditakrifkan dengan persamaan matematik, sesetengah pembolehubah tidak mempunyai nilai tertentu, sebaliknya mempunyai taburan kebarangkalian; iaitu, beberapa pembolehubah adalah stokastik. Dalam contoh di atas, ε ialah pembolehubah stokastik; tanpa pembolehubah ini, modelnya adalahakan menjadi deterministik.

Model statistik sering digunakan dalam analisis dan pemodelan statistik, walaupun proses fizikal yang dimodelkan adalah deterministik. Sebagai contoh, melambung syiling pada dasarnya adalah proses yang menentukan; namun ia biasanya dimodelkan sebagai stokastik (melalui proses Bernoulli).

statistik pemanasan
statistik pemanasan

Model parametrik

Model parametrik ialah model statistik yang paling biasa digunakan. Mengenai model separa parametrik dan bukan parametrik, Sir David Cox berkata: "Ia secara amnya memasukkan lebih sedikit andaian tentang struktur dan bentuk pengedaran, tetapi biasanya mengandungi andaian kebebasan yang kuat." Seperti semua model lain yang disebutkan, ia juga sering digunakan dalam kaedah statistik pemodelan matematik.

Model berbilang peringkat

Model berbilang peringkat (juga dikenali sebagai model linear hierarki, model data bersarang, model bercampur, pekali rawak, model kesan rawak, model parameter rawak atau model terbahagi) ialah model parameter statistik yang berbeza pada lebih daripada satu tahap. Contohnya ialah model pencapaian pelajar yang mengandungi metrik untuk pelajar individu dan juga metrik untuk bilik darjah di mana pelajar dikumpulkan. Model ini boleh dianggap sebagai generalisasi model linear (khususnya, regresi linear), walaupun ia juga boleh diperluaskan kepada model bukan linear. Model-model ini telah menjadilebih popular apabila kuasa pengkomputeran dan perisian yang mencukupi tersedia.

Statistik segmen
Statistik segmen

Model berbilang peringkat amat sesuai untuk projek penyelidikan yang mana data untuk peserta disusun pada lebih daripada satu peringkat (iaitu, data bersarang). Unit analisis biasanya individu (pada tahap yang lebih rendah) yang bersarang dalam konteks/unit agregat (pada tahap yang lebih tinggi). Walaupun tahap terendah data dalam model berbilang peringkat biasanya individu, pengukuran berulang individu juga boleh dipertimbangkan. Oleh itu, model pelbagai peringkat menyediakan jenis analisis alternatif untuk analisis ukuran berulang univariat atau multivariate. Perbezaan individu dalam lengkung pertumbuhan boleh dipertimbangkan. Selain itu, model pelbagai peringkat boleh digunakan sebagai alternatif kepada ANCOVA, di mana skor pembolehubah bersandar diselaraskan untuk kovariat (cth, perbezaan individu) sebelum menguji perbezaan rawatan. Model berbilang peringkat dapat menganalisis eksperimen ini tanpa andaian cerun regresi seragam yang diperlukan oleh ANCOVA.

Model berbilang peringkat boleh digunakan untuk data dengan banyak peringkat, walaupun model dua peringkat adalah yang paling biasa dan selebihnya artikel ini memfokuskan pada ini. Pembolehubah bersandar harus diperiksa pada tahap analisis yang paling rendah.

Graf tekanan atmosfera
Graf tekanan atmosfera

Pemilihan model

Pemilihan modeladalah tugas memilih daripada satu set model calon yang diberi data, dijalankan dalam rangka kerja pemodelan statistik. Dalam kes paling mudah, set data yang sedia ada dipertimbangkan. Walau bagaimanapun, tugas itu mungkin juga melibatkan mereka bentuk eksperimen supaya data yang dikumpul sesuai dengan tugas pemilihan model. Memandangkan model calon dengan kuasa ramalan atau penerangan yang serupa, model yang paling mudah mungkin merupakan pilihan terbaik (pencukur Occam).

Konishi & Kitagawa berkata, "Kebanyakan masalah inferens statistik boleh dianggap sebagai masalah yang berkaitan dengan pemodelan statistik." Begitu juga, Cox berkata, "Cara penterjemahan perkara ke dalam model statistik selalunya merupakan bahagian yang paling penting dalam analisis."

Pemilihan model juga boleh merujuk kepada masalah memilih beberapa model perwakilan daripada set besar model pengiraan untuk tujuan keputusan atau pengoptimuman di bawah ketidakpastian.

Corak grafik

Model grafik, atau model grafik kebarangkalian, (PGM) atau model kebarangkalian berstruktur, ialah model kebarangkalian yang mana graf menyatakan struktur hubungan bersyarat antara pembolehubah rawak. Ia biasanya digunakan dalam teori kebarangkalian, statistik (terutamanya statistik Bayesian) dan pembelajaran mesin.

Model statistik dengan graf
Model statistik dengan graf

Model ekonometrik

Model ekonometrik ialah model statistik yang digunakan dalamekonometrik. Model ekonometrik mentakrifkan hubungan statistik yang dipercayai wujud antara pelbagai kuantiti ekonomi yang berkaitan dengan fenomena ekonomi tertentu. Model ekonometrik boleh diperoleh daripada model ekonomi deterministik yang mengambil kira ketidakpastian, atau daripada model ekonomi yang stokastik itu sendiri. Walau bagaimanapun, anda juga boleh menggunakan model ekonometrik yang tidak terikat dengan mana-mana teori ekonomi tertentu.

Disyorkan: