Analisis teks kekerapan: ciri dan contoh

Isi kandungan:

Analisis teks kekerapan: ciri dan contoh
Analisis teks kekerapan: ciri dan contoh
Anonim

Anda telah menemui konsep ini lebih daripada sekali dalam hidup anda jika anda terpaksa bekerja dengan teks. Khususnya, anda boleh beralih kepada kalkulator dalam talian yang menjalankan analisis kekerapan teks dengan tepat. Alat berguna ini menunjukkan berapa kali aksara atau huruf tertentu berlaku dalam mana-mana petikan teks. Selalunya peratusan juga ditunjukkan. Mengapa ini diperlukan? Bagaimanakah analisis kekerapan teks menyumbang kepada "meretak" sifir mudah? Apakah intipatinya, siapa yang menciptanya? Kami akan menjawab soalan ini dan soalan penting lain mengenai topik dalam perjalanan artikel.

Definisi

Analisis frekuensi ialah salah satu jenis analisis kriptografi. Ia berdasarkan andaian saintis tentang kewujudan taburan statistik bukan remeh bagi aksara individu dan urutan tetapnya dalam kedua-dua teks biasa dan sifir.

Adalah dipercayai bahawa pengedaran sedemikian, sehingga penggantian aksara individu, juga akan dikekalkan dalam proses penyulitan/penyahsulitan.

analisis frekuensi sistem
analisis frekuensi sistem

Ciri proses

Sekarang mari kita lihat analisis kekerapan secara ringkas. Ini menunjukkan bahawa bilangan kemunculan aksara abjad yang sama dalam teks yang cukup panjang adalah sama dalam teks berbeza yang ditulis dalam bahasa yang sama.

Dan sekarang bagaimana pula dengan penyulitan monoalfabetik? Diandaikan bahawa jika terdapat watak dengan kebarangkalian yang serupa untuk berlaku dalam bahagian dengan teks sifir, maka adalah realistik untuk mengandaikan bahawa ia adalah huruf sifir itu.

Pengikut analisis teks kekerapan menggunakan penaakulan yang sama pada digram (jujukan dua huruf). Trigram - ini adalah untuk kes sifir polialfabetik.

Sejarah kaedah

Analisis kekerapan perkataan bukanlah penemuan kemodenan. Ia telah diketahui oleh dunia saintifik sejak abad ke-9. Penciptaannya dikaitkan dengan nama Al-Kindi.

Tetapi kes yang diketahui penggunaan kaedah analisis frekuensi tergolong dalam tempoh yang lebih lama. Contoh yang paling menarik di sini ialah pentafsiran hieroglif Mesir, yang dihasilkan pada tahun 1822 oleh J.-F. Champollion.

Jika kita beralih kepada fiksyen, kita boleh menemui banyak rujukan menarik untuk kaedah penyahsulitan ini:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Anak-anak Kapten Grant".
  • Edgar Poe - "Pepijat Emas".

Namun, sejak pertengahan abad yang lalu, kebanyakan algoritma yang digunakan dalam penyulitan telah dibangunkan dengan mengambil kira rintangannya terhadap analisis kriptografi frekuensi tersebut. Oleh itu iahari ini ia paling kerap digunakan hanya untuk melatih kriptografi masa hadapan.

analisis kekerapan teks
analisis kekerapan teks

Kaedah asas

Mari kita bentangkan analisis respons kekerapan secara terperinci. Analisis jenis ini secara langsung berdasarkan fakta bahawa ujian itu terdiri daripada perkataan, dan seterusnya, huruf. Bilangan huruf yang mengisi abjad kebangsaan adalah terhad. Surat boleh disenaraikan di sini.

Ciri-ciri yang paling penting bagi teks sedemikian ialah pengulangan huruf, pelbagai bigram, trigram dan n-gram, serta keserasian pelbagai huruf antara satu sama lain, pergantian konsonan / vokal dan lain-lain jenis simbol ini.

Idea utama kaedah ini adalah untuk mengira kejadian kemungkinan n-gram (ditandakan dengan nm) dalam teks biasa yang cukup panjang untuk dianalisis (dilambangkan dengan T=t1t2…tl) yang terdiri daripada huruf abjad kebangsaan (dilambangkan dengan {a1, a2, …, an}). Semua di atas menyebabkan beberapa m-gram berturut-turut teks:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Jika ini ialah bilangan kemunculan m-gram ai1ai2…tujukan dalam teks tertentu T, dan L ialah jumlah bilangan m-gram yang dianalisis oleh penyelidik, maka adalah mungkin untuk menentukan secara empirik bahawa untuk L yang cukup besar, frekuensi untuk m-gram sedemikian akan sedikit berbeza antara satu sama lain.

analisis kekerapan
analisis kekerapan

Huruf abjad Rusia yang kerap muncul

Tetapi analisis kekerapan masa, walaupun nama yang sama, tidak ada kaitan dengan topik perbualan kami. Analisis jenis ini dijalankan untukisyarat daripada stesen radar yang boleh diperhatikan rendah menggunakan transformasi wavelet khas.

Sekarang mari kita kembali kepada topik utama. Semasa menjalankan analisis kekerapan, anda boleh mengetahui huruf abjad Rusia yang paling kerap ditemui dalam teks yang agak besar (peratusan dari 0.062 hingga 0.018):

  • A.
  • V.
  • D.
  • F.
  • Saya.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • Saya.

Malah peraturan mnemonik khas telah diperkenalkan, yang membantu mempelajari huruf yang paling biasa dalam abjad Rusia. Untuk melakukan ini, cukup untuk mengingati hanya satu perkataan - "hayloft".

Dalam kes umum, kekerapan penggunaan huruf dalam istilah peratusan ditetapkan dengan mudah: pakar mengira berapa kali huruf itu berlaku dalam teks, kemudian membahagikan nilai yang terhasil dengan jumlah bilangan aksara dalam teks. Dan untuk menyatakan nilai ini sebagai peratusan, sudah cukup untuk mendarabkannya dengan 100.

Adalah penting untuk mempertimbangkan bahawa kekerapan akan bergantung bukan sahaja pada kelantangan teks, tetapi juga pada sifatnya. Sebagai contoh, dalam sumber teknikal huruf "F" muncul lebih kerap daripada dalam fiksyen. Oleh itu, untuk hasil yang objektif, pakar mesti menaip teks pelbagai sifat dan gaya untuk penyelidikan.

program analisis kekerapan teks
program analisis kekerapan teks

Bi-, tri-, empat gram

Dalam teks yang bermakna, anda juga boleh mencari yang paling biasa (masing-masing, yang palingberulang) gabungan dua atau lebih huruf. Pakar juga telah menyusun beberapa jadual, yang menunjukkan kekerapan digram yang serupa bagi pelbagai abjad.

Bagi bahasa Rusia, analisis kekerapan sistem teks yang banyak bermakna memungkinkan untuk mewujudkan bigram dan trigram yang paling biasa:

  • EN.
  • ST.
  • TAPI.
  • TIDAK.
  • HIDUP.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • BARU
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Hubungan surat pilihan antara satu sama lain

Dan ini bukan semua kemungkinan yang boleh diberikan oleh analisis kekerapan kepada penyelidik teks. Dengan menyusun maklumat daripada jadual bigram dan trigram yang serupa, adalah mungkin untuk mengekstrak data pada gabungan huruf yang paling biasa. Atau, dengan kata lain, hubungan pilihan mereka antara satu sama lain.

Kajian yang begitu meluas telah pun dijalankan oleh pakar. Hasilnya ialah jadual di mana, bersama dengan setiap huruf abjad, jirannya ditunjukkan. Lebih-lebih lagi, watak-watak yang sering dijumpai sejurus sebelum dan selepasnya. Huruf dalam jadual tidak dieja secara kebetulan. Lebih dekat dengan simbol, jiran yang paling kerap ditunjukkan, seterusnya - lebih jarang.

Pertimbangkan contoh:

  • Huruf "A". Sambungan pilihan berikut dibezakan di sini: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Dari sini kita melihat bahawa paling kerap sebelum "A" dalam teks terdapat "H" ("NA"). Dan selepas "A" paling kerap dalam teks dalam bahasa Rusia kita boleh bertemu "L"("AL").
  • Huruf "M". Pakar telah mengenal pasti sambungan pilihan sedemikian: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Huruf "b". Sambungan pilihan adalah seperti berikut: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Surat "Sh". Sambungan pilihan: "e-b-a-i-u-Sch-e-i-a".
  • Huruf "P". Sambungan pilihan dengan simbol abjad Rusia ini: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
analisis kekerapan masa
analisis kekerapan masa

Apakah yang mentakrifkan analisis?

Program analisis teks frekuensi moden membantu mengkaji sejumlah besar pelbagai jenis artikel, esei, petikan dan sebagainya. Maklumat berikut diberikan kepada penyelidik sebagai standard:

  • Jumlah bilangan aksara dalam teks.
  • Bilangan ruang yang digunakan oleh pengarang.
  • Bilangan digit.
  • Maklumat tentang tanda baca yang digunakan - noktah, koma, dsb.
  • Bilangan huruf dalam setiap abjad yang tersedia - Cyrillic, Latin, dsb.
  • Maklumat tentang kekerapan penggunaan setiap huruf dan simbol dalam teks - bilangan sebutan dan peratusan berbanding keseluruhan teks.

Perjuangan menentang pengoptimuman berlebihan dan ketepuan berlebihan

Mengapa analisis kekerapan teks dilakukan? Adakah ia hanya untuk tujuan ingin tahu - untuk menentukan watak dalam teks bertulis yang sering ditemui? Tidak, aplikasi utama analisis adalah praktikal, dan ia terletak di tempat lain.

N-gram termasuk bukan sahaja bigram dan trigram stabil. Kepada yang samakategori termasuk kata kunci (tag), kolokasi. Iaitu, gabungan stabil yang terdiri daripada dua atau lebih perkataan. Mereka dibezakan oleh fakta bahawa gubahan sedemikian berlaku bersama dalam teks dan pada masa yang sama membawa beban semantik tertentu.

Ini bermain di tangan pakar SEO yang tidak bertanggungjawab. Dalam kerja mereka, kadangkala mereka menyalahgunakan pengulangan tag dan kata kunci dalam teks untuk meningkatkan perkaitan halaman web tertentu secara buatan. Mereka cuba menipu sistem dengan "helah" sedemikian: mengubah kombinasi semula jadi dengan gabungan perkataan biasa, tradisional untuk bahasa Rusia ("beli kot cerpelai") menjadi tidak konsisten. Iaitu, diperoleh dengan menyusun semula perkataan dalam N-gram semulajadi ("beli kot cerpelai").

Tetapi hari ini, algoritma carian telah belajar untuk mengesan pengoptimuman berlebihan seefektif overspam - terlalu tepu teks dengan kata kunci, teg yang mempengaruhi kedudukan hasil pada halaman carian. Halaman yang terlalu dioptimumkan kini, sebaliknya, berada di kedudukan lebih rendah mengikut pertanyaan pengguna. Dan orang sendiri tidak cenderung membaca tidak bermakna, terlebih tepu dengan teks tag, lebih suka maklumat berguna pada sumber lain.

kaedah analisis frekuensi
kaedah analisis frekuensi

Membantu analisis peribadi untuk pakar SEO

Oleh itu, penapis teks enjin carian moden hari ini memberi keutamaan kepada halaman Internet tersebut, maklumat yang bukan sahaja mudah dibaca, tetapi juga berguna kepada pelawat. Untuk mengoptimumkan kerja mereka untuk standard baharu, pakar SEOdan beralih kepada analisis kekerapan teks. Banyak perkhidmatan popular menyediakannya hari ini.

Analisis kekerapan membantu menyemak teks yang sedang disediakan untuk penerbitan untuk bermaklumat. Hapuskan lebihan teg dan frasa utama yang tidak perlu. Ia juga membolehkan anda menarik perhatian pengarang kepada gabungan perkataan yang tidak wajar yang menimbulkan syak wasangka dalam penapis teks enjin carian.

analisis tindak balas frekuensi
analisis tindak balas frekuensi

Analisis kekerapan teks dengan itu membantu menentukan kekerapan sebutan aksara tertentu dalam sumber. Kaedah ini digunakan hari ini untuk menilai lebihan teks dengan teg, pilih atur perkataan yang tidak wajar.

Disyorkan: