Model statistik ialah unjuran matematik yang merangkumi satu set andaian berbeza tentang penjanaan beberapa data sampel. Istilah ini sering dikemukakan dalam bentuk yang sangat ideal.
Andaian yang dinyatakan dalam model statistik menunjukkan satu set taburan kebarangkalian. Kebanyakannya bertujuan untuk menganggarkan pengedaran dengan betul dari mana set maklumat tertentu sedang diambil. Taburan kebarangkalian yang wujud dalam model statistik inilah yang membezakan unjuran daripada pengubahsuaian matematik lain.
Unjuran umum
Model matematik ialah penerangan sistem menggunakan konsep dan bahasa tertentu. Ia digunakan untuk sains semula jadi (seperti fizik, biologi, sains bumi, kimia) dan disiplin kejuruteraan (seperti sains komputer, kejuruteraan elektrik), serta sains sosial (seperti ekonomi, psikologi, sosiologi, sains politik).
Model boleh membantu menerangkan sistem dankaji pengaruh pelbagai komponen dan buat ramalan tingkah laku.
Model matematik boleh mengambil pelbagai bentuk, termasuk sistem dinamik, unjuran statistik, persamaan pembezaan atau parameter teori permainan. Ini dan jenis lain mungkin bertindih, dan model ini termasuk banyak struktur abstrak. Secara umum, unjuran matematik juga boleh merangkumi komponen logik. Dalam banyak kes, kualiti bidang saintifik bergantung pada sejauh mana model matematik yang dibangunkan secara teori bersetuju dengan keputusan eksperimen berulang. Kekurangan persetujuan antara proses teori dan pengukuran eksperimen selalunya membawa kepada kemajuan penting apabila teori yang lebih baik dibangunkan.
Dalam sains fizik, model matematik tradisional mengandungi sejumlah besar elemen berikut:
- Kawal persamaan.
- Submodel tambahan.
- Tentukan persamaan.
- Persamaan juzuk.
- Andaian dan had.
- Syarat awal dan sempadan.
- Kekangan klasik dan persamaan kinematik.
Formula
Model statistik, sebagai peraturan, ditetapkan oleh persamaan matematik yang menggabungkan satu atau lebih pembolehubah rawak dan, mungkin, pembolehubah lain yang berlaku secara semula jadi. Begitu juga, unjuran dianggap "konsep formal bagi sesuatu konsep."
Semua ujian hipotesis statistik dan penilaian statistik diperoleh daripada model matematik.
Pengenalan
Secara tidak rasmi, model statistik boleh dilihat sebagai andaian (atau set andaian) dengan sifat tertentu: ia membenarkan seseorang mengira kebarangkalian sebarang peristiwa. Sebagai contoh, pertimbangkan sepasang dadu enam segi biasa. Dua andaian statistik berbeza tentang tulang perlu diterokai.
Andaian pertama ialah:
Untuk setiap dadu, kebarangkalian mendapat satu daripada nombor (1, 2, 3, 4, 5, dan 6) ialah: 1/6.
Daripada andaian ini, kita boleh mengira kebarangkalian kedua-dua dadu: 1:1/6×1/6=1/36.
Secara umum, anda boleh mengira kebarangkalian sebarang peristiwa. Walau bagaimanapun, perlu difahami bahawa adalah mustahil untuk mengira kebarangkalian sebarang peristiwa bukan remeh lain.
Hanya pendapat pertama mengumpul model matematik statistik: kerana fakta bahawa dengan hanya satu andaian adalah mungkin untuk menentukan kebarangkalian setiap tindakan.
Dalam sampel di atas dengan kebenaran awal, adalah mudah untuk menentukan kemungkinan sesuatu acara. Dengan beberapa contoh lain, pengiraan mungkin sukar atau tidak realistik (contohnya, pengiraan mungkin memerlukan bertahun-tahun pengiraan). Bagi seseorang yang mereka bentuk model analisis statistik, kerumitan sedemikian dianggap tidak boleh diterima: pelaksanaan pengiraan tidak sepatutnya mustahil secara praktikal dan mustahil secara teori.
Takrifan formal
Dalam istilah matematik, model statistik sistem biasanya dianggap sebagai pasangan (S, P), di mana S ialahset pemerhatian yang mungkin, iaitu ruang sampel, dan P ialah set taburan kebarangkalian pada S.
Intuisi definisi ini adalah seperti berikut. Diandaikan bahawa terdapat taburan kebarangkalian "benar" disebabkan oleh proses yang menjana data tertentu.
Set
Dialah yang menentukan parameter model. Parameterisasi secara amnya memerlukan nilai yang berbeza untuk menghasilkan pengedaran yang berbeza, iaitu
mesti dipegang (dengan kata lain, ia mestilah injektif). Parametrisasi yang memenuhi keperluan dikatakan boleh dikenal pasti.
Contoh
Andaikan terdapat sebilangan pelajar yang berbeza umur. Ketinggian kanak-kanak itu akan dikaitkan secara stokastik dengan tahun kelahiran: contohnya, apabila budak sekolah berumur 7 tahun, ini menjejaskan kebarangkalian pertumbuhan, hanya supaya orang itu lebih tinggi daripada 3 sentimeter.
Anda boleh memformalkan pendekatan ini ke dalam model regresi garis lurus, sebagai contoh, seperti berikut: ketinggian i=b 0 + b 1agei + εi, dengan b 0 ialah persilangan, b 1 ialah parameter mengikut umur didarab apabila mendapat pemantauan ketinggian. Ini adalah istilah ralat. Iaitu, ia mengandaikan bahawa ketinggian diramalkan mengikut umur dengan ralat tertentu.
Borang yang sah mesti sepadan dengan semua mata maklumat. Oleh itu, arah rectilinear (tahap i=b 0 + b 1agei) tidak mampu menjadi persamaan untuk model data - jika ia tidak menjawab dengan jelas semua titik. i.etanpa pengecualian, semua maklumat terletak pada talian dengan sempurna. Margin ralat εi mesti dimasukkan ke dalam persamaan supaya borang sepadan sepenuhnya dengan semua item maklumat.
Untuk membuat inferens statistik, kita perlu mengandaikan beberapa taburan kebarangkalian untuk ε i. Sebagai contoh, seseorang boleh mengandaikan bahawa taburan ε i mempunyai bentuk Gaussian dengan min sifar. Dalam kes ini, model akan mempunyai 3 parameter: b 0, b 1 dan varians taburan Gaussian.
Anda boleh menentukan model secara rasmi sebagai (S, P).
Dalam contoh ini, model ditakrifkan dengan menyatakan S dan oleh itu beberapa andaian boleh dibuat tentang P. Terdapat dua pilihan:
Pertumbuhan ini boleh dianggarkan dengan fungsi linear umur;
Bahawa ralat dalam anggaran diedarkan seperti di dalam Gaussian.
Catatan am
Parameter statistik model ialah kelas khas unjuran matematik. Apakah yang membezakan satu spesies daripada yang lain? Oleh itu, model statistik adalah bukan deterministik. Oleh itu, di dalamnya, tidak seperti persamaan matematik, pembolehubah tertentu tidak mempunyai nilai tertentu, sebaliknya mempunyai taburan kemungkinan. Iaitu, pembolehubah individu dianggap stokastik. Dalam contoh di atas, ε ialah pembolehubah stokastik. Tanpanya, unjuran akan menjadi deterministik.
Membina model statistik sering digunakan, walaupun proses material dianggap sebagai deterministik. Sebagai contoh, melambung syiling adalah, pada dasarnya, tindakan penentuan awal. Walau bagaimanapun, ini masih dalam kebanyakan kes dimodelkan sebagai stokastik (melalui proses Bernoulli).
Menurut Konishi dan Kitagawa, terdapat tiga matlamat untuk model statistik:
- Ramalan.
- Perlombongan maklumat.
- Penerangan tentang struktur stokastik.
Saiz unjuran
Anggapkan terdapat model ramalan statistik, Model dipanggil parametrik jika O mempunyai dimensi terhingga. Dalam penyelesaian, anda mesti menulis bahawa
di mana k ialah integer positif (R bermaksud sebarang nombor nyata). Di sini k dipanggil dimensi model.
Sebagai contoh, kita boleh mengandaikan bahawa semua data datang daripada taburan Gaussian univariate:
Dalam contoh ini, dimensi k ialah 2.
Dan sebagai contoh lain, data boleh diandaikan terdiri daripada titik (x, y), yang diandaikan akan diedarkan dalam garis lurus dengan baki Gaussian (dengan min sifar). Kemudian dimensi model ekonomi statistik adalah sama dengan 3: persilangan garis, cerunnya dan varians taburan sisa. Perlu diingat bahawa dalam geometri garis lurus mempunyai dimensi 1.
Walaupun nilai di atas secara teknikal adalah satu-satunya parameter yang mempunyai dimensi k, kadangkala ia dianggap mengandungi k nilai yang berbeza. Sebagai contoh, dengan taburan Gaussian satu dimensi, O ialah satu-satunya parameter dengan saiz 2, tetapi kadangkala dianggap mengandungi duaparameter individu - nilai min dan sisihan piawai.
Model proses statistik adalah bukan parametrik jika set nilai O adalah dimensi tak terhingga. Ia juga separuh parametrik jika ia mempunyai kedua-dua parameter dimensi terhingga dan dimensi tak terhingga. Secara formal, jika k ialah dimensi O dan n ialah bilangan sampel, model separa parametrik dan bukan parametrik mempunyai
maka model adalah separa parametrik. Jika tidak, unjuran bukan parametrik.
Model parametrik ialah statistik yang paling biasa digunakan. Mengenai unjuran separuh parametrik dan bukan parametrik, Sir David Cox menyatakan:
"Biasanya, ia melibatkan hipotesis paling sedikit tentang tekstur dan bentuk pengedaran, tetapi ia termasuk teori yang kuat tentang sara diri."
Model bersarang
Jangan kelirukan mereka dengan unjuran berbilang peringkat.
Dua model statistik bersarang jika yang pertama boleh ditukar kepada yang kedua dengan mengenakan kekangan pada parameter yang pertama. Sebagai contoh, set semua taburan Gaussian mempunyai set bersarang bagi taburan min sifar:
Iaitu, anda perlu mengehadkan min dalam set semua taburan Gaussian untuk mendapatkan taburan dengan min sifar. Sebagai contoh kedua, model kuadratik y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) mempunyai model linear terbenam y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - iaitu parameter b2 bersamaan dengan 0.
Dalam kedua-dua contoh ini, model pertama mempunyai dimensi yang lebih tinggi daripada model kedua. Ini selalunya, tetapi tidak selalu berlaku. Contoh lain ialah set taburan Gaussian dengan min positif, yang mempunyai dimensi 2.
Perbandingan model
Adalah diandaikan bahawa terdapat taburan kebarangkalian "benar" yang mendasari data yang diperhatikan yang disebabkan oleh proses yang menjananya.
Dan juga model boleh dibandingkan antara satu sama lain, menggunakan analisis penerokaan atau pengesahan. Dalam analisis penerokaan, model yang berbeza dirumuskan dan penilaian dibuat tentang sejauh mana setiap daripada mereka menerangkan data. Dalam analisis pengesahan, hipotesis yang dirumuskan sebelum ini dibandingkan dengan yang asal. Kriteria biasa untuk ini termasuk P 2, Faktor Bayesian dan kebarangkalian relatif.
Pemikiran Konishi dan Kitagawa
“Kebanyakan masalah dalam model matematik statistik boleh dianggap sebagai soalan ramalan. Ia biasanya dirumuskan sebagai perbandingan beberapa faktor.”
Selain itu, Sir David Cox berkata: "Sebagai terjemahan daripada topik, masalah dalam model statistik selalunya merupakan bahagian paling penting dalam analisis."