Konsep entropi maklumat membayangkan logaritma negatif fungsi jisim kebarangkalian untuk sesuatu nilai. Oleh itu, apabila sumber data mempunyai nilai dengan kebarangkalian yang lebih rendah (iaitu, apabila peristiwa dengan kebarangkalian rendah berlaku), peristiwa itu membawa lebih banyak "maklumat" ("kejutan") berbanding apabila data sumber mempunyai nilai dengan kebarangkalian yang lebih tinggi..
Jumlah maklumat yang disampaikan oleh setiap peristiwa yang ditakrifkan dengan cara ini menjadi pembolehubah rawak yang nilai jangkaannya ialah entropi maklumat. Secara amnya, entropi merujuk kepada kecelaruan atau ketidakpastian, dan takrifannya yang digunakan dalam teori maklumat adalah sama secara langsung dengan yang digunakan dalam termodinamik statistik. Konsep IE telah diperkenalkan oleh Claude Shannon dalam kertas kerjanya pada tahun 1948 "A Mathematical Theory of Communication". Di sinilah istilah "entropi maklumat Shannon" berasal.
Definisi dan sistem
Model asas sistem penghantaran data terdiri daripada tiga elemen: sumber data, saluran komunikasi dan penerima,dan, seperti yang dikatakan oleh Shannon, "masalah komunikasi asas" adalah untuk penerima dapat mengenal pasti data yang dijana oleh sumber berdasarkan isyarat yang diterima melalui saluran. Entropi memberikan kekangan mutlak pada purata panjang pengekodan tanpa kerugian purata yang sesingkat mungkin bagi data sumber termampat. Jika entropi sumber kurang daripada lebar jalur saluran komunikasi, data yang dijananya boleh dihantar dengan pasti kepada penerima (sekurang-kurangnya dalam teori, mungkin mengabaikan beberapa pertimbangan praktikal seperti kerumitan sistem yang diperlukan untuk menghantar data dan jumlah masa yang mungkin diambil untuk menghantar data).
Entropi maklumat biasanya diukur dalam bit (secara alternatif dipanggil "shannons") atau kadangkala dalam "unit semula jadi" (nats) atau tempat perpuluhan (dipanggil "dits", "bans" atau "hartleys"). Unit ukuran bergantung pada asas logaritma, yang digunakan untuk menentukan entropi.
Sifat dan logaritma
Taburan kebarangkalian log berguna sebagai ukuran entropi kerana ia adalah bahan tambahan untuk sumber bebas. Sebagai contoh, entropi pertaruhan saksama syiling ialah 1 bit, manakala entropi volum m ialah m bit. Dalam perwakilan ringkas, bit log2(n) diperlukan untuk mewakili pembolehubah yang boleh mengambil salah satu daripada n nilai jika n ialah kuasa 2. Jika nilai ini berkemungkinan sama, entropi (dalam bit) ialah sama dengan nombor itu. Jika salah satu nilai lebih berkemungkinan daripada yang lain, pemerhatian bahawa ia adalahmakna berlaku, adalah kurang bermaklumat berbanding jika beberapa keputusan yang kurang umum akan berlaku. Sebaliknya, acara yang jarang berlaku memberikan maklumat penjejakan tambahan.
Oleh kerana pemerhatian kejadian kurang berkemungkinan adalah kurang kerap, tiada persamaan bahawa entropi (dianggap sebagai maklumat purata) yang diperoleh daripada data teragih tidak sekata sentiasa kurang daripada atau sama dengan log2(n). Entropi adalah sifar apabila satu keputusan ditentukan.
Entropi maklumat Shannon mengukur pertimbangan ini apabila taburan kebarangkalian data asas diketahui. Maksud peristiwa yang diperhatikan (maksud mesej) tidak relevan dalam definisi entropi. Yang terakhir hanya mengambil kira kebarangkalian untuk melihat peristiwa tertentu, jadi maklumat yang terkandung di dalamnya adalah data tentang pengagihan kemungkinan yang mendasari, bukan tentang makna peristiwa itu sendiri. Sifat entropi maklumat kekal sama seperti yang diterangkan di atas.
Teori maklumat
Idea asas teori maklumat ialah semakin banyak pengetahuan seseorang tentang sesuatu topik, semakin kurang maklumat yang boleh diperolehi mengenainya. Sekiranya sesuatu peristiwa itu berkemungkinan besar, tidaklah menghairankan apabila ia berlaku dan oleh itu memberikan sedikit maklumat baharu. Sebaliknya, jika peristiwa itu tidak mungkin, ia adalah lebih bermaklumat bahawa peristiwa itu berlaku. Oleh itu, muatan ialah fungsi peningkatan kebarangkalian songsang peristiwa (1 / p).
Sekarang jika lebih banyak peristiwa berlaku, entropimengukur purata kandungan maklumat yang boleh anda jangkakan jika salah satu peristiwa berlaku. Ini bermakna bahawa melontar dadu mempunyai lebih banyak entropi daripada membaling syiling kerana setiap hasil kristal mempunyai kebarangkalian yang lebih rendah daripada setiap hasil syiling.
Ciri
Oleh itu, entropi ialah ukuran ketidakpastian keadaan atau, yang merupakan perkara yang sama, kandungan maklumat puratanya. Untuk mendapatkan pemahaman intuitif tentang istilah ini, pertimbangkan contoh tinjauan politik. Biasanya tinjauan seperti itu berlaku kerana keputusan, contohnya, pilihan raya belum diketahui.
Dalam erti kata lain, hasil tinjauan agak tidak dapat diramalkan, dan sebenarnya, menjalankannya dan memeriksa data memberikan beberapa maklumat baharu; ia hanyalah cara yang berbeza untuk mengatakan bahawa entropi sebelumnya bagi keputusan tinjauan pendapat adalah besar.
Sekarang pertimbangkan kes di mana tinjauan pendapat yang sama dilakukan buat kali kedua sejurus selepas tinjauan pertama. Memandangkan keputusan tinjauan pertama sudah diketahui, keputusan tinjauan kedua boleh diramalkan dengan baik dan keputusannya tidak seharusnya mengandungi banyak maklumat baharu; dalam kes ini, entropi a priori bagi keputusan tinjauan pendapat kedua adalah kecil berbanding dengan yang pertama.
Lambungan Syiling
Sekarang pertimbangkan contoh membalikkan syiling. Dengan mengandaikan bahawa kebarangkalian ekor adalah sama dengan kebarangkalian kepala, entropi lambungan syiling adalah sangat tinggi, kerana ia merupakan contoh pelik bagi entropi maklumat bagi sesuatu sistem.
Ini keranabahawa adalah mustahil untuk meramalkan bahawa hasil syiling dilambung lebih awal: jika kita perlu memilih, yang terbaik yang boleh kita lakukan ialah meramalkan bahawa syiling akan mendarat pada ekor, dan ramalan ini akan betul dengan kebarangkalian 1 / 2. Lambungan syiling sedemikian mempunyai sedikit entropi, kerana terdapat dua kemungkinan hasil yang berlaku dengan kebarangkalian yang sama, dan mengkaji hasil sebenar mengandungi sedikit maklumat.
Sebaliknya, membalikkan syiling menggunakan kedua-dua belah dengan ekor dan tiada kepala mempunyai entropi sifar kerana syiling akan sentiasa mendarat pada tanda ini dan hasilnya boleh diramalkan dengan sempurna.
Kesimpulan
Jika skema mampatan tidak rugi, bermakna anda sentiasa boleh memulihkan keseluruhan mesej asal dengan menyahmampat, maka mesej dimampatkan mempunyai jumlah maklumat yang sama seperti yang asal, tetapi dihantar dalam aksara yang lebih sedikit. Iaitu, ia mempunyai lebih banyak maklumat atau entropi yang lebih tinggi bagi setiap aksara. Ini bermakna mesej yang dimampatkan mempunyai kurang redundansi.
Secara kasarnya, teorem pengekodan kod sumber Shannon menyatakan bahawa skema pemampatan tanpa kerugian tidak boleh mengurangkan mesej secara purata untuk mempunyai lebih daripada satu bit maklumat bagi setiap bit mesej, tetapi sebarang nilai kurang daripada satu bit maklumat setiap bit boleh dicapai.mesej menggunakan skema pengekodan yang sesuai. Entropi mesej dalam bit kali panjangnya ialah ukuran berapa banyak maklumat umum yang terkandung di dalamnya.