Maklumat statistik: pengumpulan, pemprosesan, analisis

Isi kandungan:

Maklumat statistik: pengumpulan, pemprosesan, analisis
Maklumat statistik: pengumpulan, pemprosesan, analisis
Anonim

Sepanjang sejarah statistik, pelbagai percubaan telah dibuat untuk mencipta taksonomi tahap pengukuran. Pakar psikofizik Stanley Smith Stevens mentakrifkan skala nominal, ordinal, selang dan berkadar.

Ukuran nominal tidak mempunyai susunan kedudukan yang ketara antara nilai dan membenarkan sebarang penukaran satu sama satu.

Dimensi biasa mempunyai perbezaan yang tidak tepat antara nilai yang berturutan, tetapi mempunyai susunan tertentu bagi nilai tersebut dan membenarkan sebarang transformasi yang memelihara pesanan.

Pengukuran selang mempunyai jarak yang bermakna antara titik, tetapi nilai sifar adalah sewenang-wenangnya (seperti dalam kes ukuran longitud dan suhu dalam Celsius atau Fahrenheit) dan membenarkan sebarang penjelmaan linear.

Dimensi nisbah mempunyai kedua-dua nilai sifar yang bermakna dan jarak antara dimensi yang berbeza dan membenarkan sebarang transformasi penskalaan.

Image
Image

Pembolehubah dan klasifikasi maklumat

Sebab pembolehubahhanya sepadan dengan ukuran nominal atau ordinal tidak boleh diukur dengan munasabah secara berangka, dan kadangkala dikumpulkan sebagai pembolehubah kategori. Nisbah dan ukuran selang dikelompokkan sebagai pembolehubah kuantitatif, yang boleh sama ada diskret atau berterusan kerana sifat berangkanya. Pembezaan sedemikian sering dikaitkan secara longgar dengan jenis data dalam sains komputer, kerana pembolehubah kategori dikotomi boleh diwakili oleh nilai boolean, pembolehubah kategori politom dengan integer arbitrari dalam jenis data kamiran dan pembolehubah berterusan dengan komponen sebenar yang melibatkan pengiraan titik terapung. Tetapi paparan jenis data maklumat statistik bergantung pada klasifikasi yang digunakan.

Maklumat statistik mengenai pekerja
Maklumat statistik mengenai pekerja

Klasifikasi lain

Klasifikasi data statistik (maklumat) lain juga telah dibuat. Contohnya, Mosteller dan Tukey membezakan antara gred, pangkat, syer yang dikira, kiraan, amaun dan baki. Nelder pada satu masa menerangkan kiraan berterusan, nisbah berterusan, korelasi kiraan dan cara kategori untuk menyampaikan data. Semua kaedah pengelasan ini digunakan dalam pengumpulan maklumat statistik.

Masalah

Soalan sama ada sesuai untuk menggunakan pelbagai jenis kaedah statistik kepada data yang diperoleh melalui prosedur pengukuran (pengumpulan) berbeza adalah rumit oleh isu yang berkaitan dengan penukaran pembolehubah dan tafsiran tepat soalanpenyelidikan. Hubungan antara data dan apa yang diterangkannya hanya mencerminkan fakta bahawa jenis pernyataan statistik tertentu boleh mempunyai nilai kebenaran yang tidak invarian di bawah transformasi tertentu. Sama ada transformasi itu patut dipertimbangkan bergantung pada soalan yang anda cuba jawab.

Contoh maklumat statistik
Contoh maklumat statistik

Apakah itu jenis data

Jenis data ialah komponen asas kandungan semantik pembolehubah dan mengawal jenis taburan kebarangkalian yang boleh digunakan secara logik untuk menerangkan pembolehubah, operasi yang dibenarkan padanya, jenis analisis regresi yang digunakan untuk meramalkannya, dsb. Konsep jenis data adalah serupa pada konsep tahap pengukuran, tetapi lebih khusus - contohnya, kiraan data memerlukan pengedaran yang berbeza (Poisson atau binomial) daripada nilai sebenar bukan negatif, tetapi kedua-duanya berada di bawah yang sama tahap ukuran (skala pekali).

Maklumat statistik tentang hakim
Maklumat statistik tentang hakim

Timbangan

Pelbagai percubaan telah dibuat untuk mencipta taksonomi tahap pengukuran untuk memproses maklumat statistik. Pakar psikofizik Stanley Smith Stevens mentakrifkan skala nominal, ordinal, selang dan berkadar. Pengukuran nominal tidak mempunyai susunan kedudukan yang ketara antara nilai dan membenarkan sebarang penukaran satu sama satu. Pengukuran biasa mempunyai perbezaan yang tidak tepat antara nilai berturut-turut, tetapi berbeza dalam susunan ketara nilai tersebut, dan membenarkansebarang transformasi memelihara perintah. Pengukuran selang mempunyai jarak yang bermakna antara ukuran, tetapi nilai sifar adalah sewenang-wenangnya (seperti dalam kes ukuran longitud dan suhu dalam Celsius atau Fahrenheit) dan membenarkan sebarang transformasi linear. Dimensi nisbah mempunyai kedua-dua nilai sifar yang bermakna dan jarak antara dimensi yang ditakrifkan berbeza dan membenarkan sebarang transformasi penskalaan.

Model rajah
Model rajah

Data yang tidak boleh diterangkan menggunakan satu nombor selalunya disertakan dalam vektor rawak pembolehubah rawak sebenar, walaupun terdapat trend yang semakin meningkat untuk memprosesnya sendiri. Contoh sedemikian akan dibincangkan di bawah.

Vektor rawak

Unsur individu mungkin dikaitkan atau tidak. Contoh taburan yang digunakan untuk menerangkan vektor rawak berkorelasi ialah taburan normal multivariat dan taburan t multivariate. Secara umum, mungkin terdapat korelasi sewenang-wenang antara mana-mana elemen, namun ini selalunya menjadi tidak terurus melebihi saiz tertentu, memerlukan kekangan tambahan pada komponen yang berkaitan.

atribut statistik
atribut statistik

Matriks rawak

Matriks rawak boleh disusun secara linear dan dianggap sebagai vektor rawak, namun ini mungkin bukan cara yang cekap untuk mewakili korelasi antara elemen yang berbeza. Beberapa taburan kebarangkalian direka khusus untuk matriks rawak, seperti matriks normalpengedaran dan pengedaran Wishart.

Jujukan Rawak

Kadangkala ia dianggap sama seperti vektor rawak, tetapi dalam kes lain istilah ini digunakan secara khusus untuk kes di mana setiap pembolehubah rawak berkorelasi hanya dengan pembolehubah berdekatan (seperti dalam model Markov). Ini adalah kes khas rangkaian Bayesian dan digunakan untuk jujukan yang sangat panjang, seperti rantai gen atau dokumen teks yang panjang. Beberapa model direka khas untuk jujukan sedemikian, seperti jujukan Markov tersembunyi.

Carta biasa
Carta biasa

Proses rawak

Ia serupa dengan jujukan rawak, tetapi hanya apabila panjang jujukan itu tidak tentu atau tidak terhingga, dan unsur-unsur dalam jujukan diproses satu demi satu. Ini sering digunakan untuk data yang boleh digambarkan sebagai siri masa. Ini benar apabila ia berkaitan, sebagai contoh, harga saham pada hari berikutnya.

Kesimpulan

Analisis maklumat statistik bergantung sepenuhnya pada kualiti pengumpulannya. Yang terakhir, seterusnya, sangat berkaitan dengan kemungkinan pengelasannya. Sudah tentu, terdapat banyak jenis klasifikasi maklumat statistik, yang pembaca boleh lihat sendiri apabila membaca artikel ini. Walau bagaimanapun, kehadiran alat yang berkesan dan penguasaan matematik yang baik, serta pengetahuan dalam bidang sosiologi, akan melakukan tugas mereka, membolehkan anda menjalankan sebarang tinjauan atau kajian tanpa pembetulan yang ketara untuk kesilapan. Sumber maklumat statistik dalam bentukorang, organisasi dan subjek sosiologi lain, mujurlah, diwakili dengan banyaknya. Dan tiada kesukaran yang boleh menghalang penjelajah sejati.

Disyorkan: