Apakah itu linguistik korpus?

2026 Pengarang: Angel Austin | austin@vogueindustry.com. Diubah suai terakhir: 2025-01-23 12:27:16

Beberapa dekad yang lalu, saintis hanya boleh bermimpi untuk mengautomasikan penyelidikan linguistik. Kerja itu dilakukan dengan tangan, sebilangan besar pelajar terlibat di dalamnya, terdapat kebarangkalian besar untuk ralat "tidak memberi perhatian", dan yang paling penting, semuanya mengambil banyak, banyak masa.

Dengan perkembangan teknologi komputer, ia menjadi mungkin untuk menjalankan penyelidikan dengan lebih pantas, dan hari ini salah satu bidang yang menjanjikan dalam kajian bahasa ialah linguistik korpus. Ciri utamanya ialah penggunaan sejumlah besar maklumat teks, disatukan ke dalam pangkalan data tunggal, ditandakan dengan cara yang istimewa dan dipanggil korpus.

Hari ini, terdapat banyak korpora yang dicipta untuk tujuan yang berbeza, berdasarkan bahan bahasa yang berbeza, meliputi daripada berjuta hingga berpuluh bilion unit leksikal. Hala tuju ini diiktiraf sebagai menjanjikan dan menunjukkan kemajuan yang ketara dalam mencapai matlamat gunaan dan penyelidikan. Profesional, satu cara atau yang lain berurusan denganbahasa semula jadi, adalah disyorkan agar anda membiasakan diri dengan korpora teks sekurang-kurangnya pada tahap asas.

Sejarah linguistik korpus

Pembentukan arah ini dikaitkan dengan penciptaan Brown Corps di AS pada awal 60-an abad yang lalu. Pengumpulan teks hanya terdiri daripada 1 juta bentuk perkataan, dan hari ini korpus jilid sedemikian akan menjadi tidak kompetitif sama sekali. Ini sebahagian besarnya disebabkan oleh kepantasan pembangunan teknologi komputer, serta permintaan yang semakin meningkat untuk sumber penyelidikan baharu.

Pada tahun 90-an, linguistik korpus telah dibentuk menjadi satu disiplin yang lengkap dan bebas, koleksi teks telah disusun dan ditandakan untuk beberapa dozen bahasa. Dalam tempoh ini, contohnya, British National Corpus telah dicipta untuk 100 juta penggunaan perkataan.

Apabila arah linguistik ini berkembang, volum teks menjadi lebih besar (dan mencapai berbilion unit perbendaharaan kata), dan markup menjadi lebih pelbagai. Hari ini, dalam ruang Internet, anda boleh menemui korpora pertuturan bertulis dan lisan, berbilang bahasa dan pendidikan, tertumpu pada fiksyen atau sastera akademik, serta pelbagai jenis lain.

Apakah kes yang ada

Jenis korpus dalam linguistik korpus boleh diwakili dalam beberapa cara. Secara intuitif jelas bahawa asas untuk klasifikasi boleh menjadi bahasa teks (Rusia, Jerman), mod akses (sumber terbuka, sumber tertutup, komersial), genre bahan sumber (fiksyen).sastera, dokumentari, akademik, kewartawanan).

Dengan cara yang menarik, penjanaan bahan yang mewakili ucapan lisan dijalankan. Memandangkan rakaman ucapan sedemikian yang disengajakan akan mewujudkan keadaan buatan untuk responden, dan bahan yang terhasil tidak boleh dipanggil "spontan", linguistik korpus moden pergi sebaliknya. Sukarelawan itu dilengkapi dengan mikrofon, dan pada siang hari semua perbualan di mana dia mengambil bahagian dirakam. Orang sekeliling, tentu saja, tidak tahu bahawa dalam perbualan seharian mereka menyumbang kepada perkembangan sains.

Kemudian, rakaman audio yang diterima disimpan dalam bank data dan disertakan dengan teks bercetak seperti transkrip. Dengan cara ini, penanda yang diperlukan untuk mencipta korpus pertuturan harian menjadi mungkin.

Permohonan

Jika boleh menggunakan bahasa, anda juga boleh menggunakan teks corpora. Tujuan menggunakan kaedah korpus dalam linguistik boleh:

Mencipta program sentimen yang digunakan secara meluas dalam politik dan perniagaan untuk mengesan maklum balas positif dan negatif daripada pengundi dan pelanggan, masing-masing.
Menyambungkan sistem maklumat kepada kamus dan penterjemah untuk meningkatkan prestasi mereka.
Pelbagai tugas penyelidikan yang menyumbang kepada pemahaman struktur bahasa, sejarah perkembangannya dan ramalan perubahannya dalam masa terdekat.
Pembangunan sistem pengekstrakan maklumat berdasarkan morfologi,sintaksis, semantik dan ciri lain.
Pengoptimuman kerja pelbagai sistem linguistik, dsb.

Menggunakan cengkerang

Antara muka sumber adalah serupa dengan enjin carian biasa dan menggesa pengguna memasukkan beberapa perkataan atau gabungan perkataan untuk mencari pangkalan maklumat. Sebagai tambahan kepada borang permintaan yang tepat, anda boleh menggunakan versi lanjutan, yang membolehkan anda mencari maklumat teks mengikut hampir semua kriteria linguistik.

Asas untuk carian boleh:

kepunyaan kumpulan bahagian pertuturan tertentu;
ciri tatabahasa;
semantik;
warna yang bergaya dan emosi.

Selain itu, anda boleh menggabungkan kriteria carian untuk urutan perkataan: sebagai contoh, cari semua kemunculan kata kerja dalam kala sekarang, orang pertama, tunggal diikuti dengan preposisi "dalam" dan kata nama dalam kes akusatif. Menyelesaikan tugas yang mudah sedemikian memerlukan pengguna beberapa saat dan hanya memerlukan beberapa klik tetikus dalam medan yang diberikan.

Proses penciptaan

Pencarian itu sendiri boleh dilakukan dalam semua subkorpus, dan dalam satu, dipilih secara khusus, bergantung pada keperluan apabila mencapai matlamat tertentu:

Pertama sekali, ditentukan teks mana yang akan menjadi asas kepada korpus. Untuk tujuan praktikal, kewartawanan, bahan akhbar, ulasan Internet sering digunakan. Dalam projek penyelidikan, paling banyakpelbagai jenis korpora, tetapi teks mesti dipilih atas dasar yang sama.
Set teks yang terhasil dipraproses, ralat diperbetulkan, jika ada, penerangan bibliografi dan ekstralinguistik teks disediakan.
Semua maklumat bukan teks ditapis: grafik, gambar, jadual dipadamkan.
Token, biasanya perkataan, diperuntukkan untuk pemprosesan selanjutnya.
Akhir sekali, penandaan morfologi, sintaksis dan lain-lain set elemen yang terhasil dijalankan.

Hasil semua operasi yang dilakukan ialah struktur sintaksis dengan set elemen yang diedarkan di atasnya, untuk setiap satunya bahagian pertuturan, tatabahasa dan, dalam beberapa kes, ciri semantik ditakrifkan.

Kesukaran dalam mencipta kes

Adalah penting untuk memahami bahawa untuk mendapatkan korpus, tidak cukup untuk menyusun banyak perkataan atau ayat. Di satu pihak, koleksi teks mesti seimbang, iaitu, membentangkan jenis teks yang berbeza dalam perkadaran tertentu. Sebaliknya, kandungan kes mesti ditanda dengan cara yang istimewa.

Isu pertama diselesaikan dengan persetujuan: contohnya, koleksi termasuk 60% teks fiksyen, 20% dokumentari, bahagian tertentu diberikan kepada pembentangan bertulis ucapan lisan, tindakan perundangan, kertas saintifik, dsb.. Resipi ideal untuk korpus seimbang hari ini tidak wujud.

Soalan kedua mengenai penandaan kandungan adalah lebih sukar untuk diselesaikan. Terdapat program dan algoritma khas yang digunakan untuk penandaan automatik teks, tetapi ia tidak memberikan hasil 100%, boleh menyebabkan kegagalan dan memerlukan penghalusan manual. Peluang dan masalah dalam menyelesaikan masalah ini diterangkan secara terperinci dalam karya V. P. Zakharov mengenai linguistik korpus.

Penanda teks dijalankan pada beberapa peringkat, yang akan kami senaraikan di bawah.

Penanda morfologi

Dari bangku sekolah, kami ingat bahawa dalam bahasa Rusia terdapat bahagian pertuturan yang berbeza, dan setiap daripadanya mempunyai ciri tersendiri. Contohnya, kata kerja mempunyai kategori mood dan tegang yang tidak ada pada kata nama. Penutur asli menolak kata nama dan menggabungkan kata kerja tanpa teragak-agak, tetapi kerja manual tidak sesuai untuk menandakan korpus 100 juta penggunaan perkataan. Semua operasi yang diperlukan boleh dilakukan oleh komputer, namun, untuk ini ia perlu diajar.

Penanda morfologi diperlukan untuk komputer "memahami" setiap perkataan sebagai sebahagian daripada pertuturan yang mempunyai ciri tatabahasa tertentu. Memandangkan beberapa peraturan biasa berfungsi dalam bahasa Rusia (seperti dalam bahasa lain), adalah mungkin untuk membina prosedur automatik untuk analisis morfologi dengan meletakkan beberapa algoritma ke dalam mesin. Walau bagaimanapun, terdapat pengecualian kepada peraturan, serta pelbagai faktor yang merumitkan. Akibatnya, analisis komputer tulen hari ini adalah jauh daripada ideal, malah 4% ralat memberikan nilai 4 juta perkataan dalam korpus 100 juta unit, memerlukan pemurnian manual.

Masalah ini diterangkan secara terperinci oleh buku V. P. Zakharov "Corpus Linguistics".

Penanda sintaksis

Analisis sintaksis atau penghuraian ialah prosedur yang menentukan hubungan perkataan dalam ayat. Dengan bantuan satu set algoritma, ia menjadi mungkin untuk menentukan subjek, predikat, penambahan, dan pelbagai giliran pertuturan dalam teks. Dengan memikirkan perkataan dalam urutan yang utama dan yang bergantung, kami boleh mengekstrak maklumat dengan cekap daripada teks dan melatih mesin untuk memulangkan hanya maklumat yang kami minati sebagai tindak balas kepada permintaan carian.

makmal linguistik korpus di universiti Rusia

Omong-omong, enjin carian moden menggunakan ini untuk memberikan nombor tertentu dan bukannya teks panjang sebagai tindak balas kepada pertanyaan yang berkaitan seperti: "berapa banyak kalori dalam sebiji epal" atau "jarak dari Moscow ke St. Petersburg". Walau bagaimanapun, untuk memahami walaupun asas proses yang diterangkan, anda perlu membiasakan diri dengan "Pengenalan kepada Linguistik Korpus" atau buku teks asas yang lain.

Penanda semantik

Semantik perkataan ialah, secara ringkas, maknanya. Pendekatan yang boleh digunakan secara meluas dalam analisis semantik ialah atribusi teg kepada perkataan, mencerminkan kepunyaannya dalam set kategori dan subkategori semantik. Maklumat sedemikian berharga untuk mengoptimumkan algoritma analisis sentimen teks, rujukan automatik dan melaksanakan tugas lain menggunakan kaedah linguistik korpus.

Terdapat beberapa "akar" pokok, iaitu perkataan abstrak yang mempunyaisemantik yang sangat luas. Apabila pokok ini bercabang, nod terbentuk yang mengandungi unsur leksikal yang lebih spesifik. Sebagai contoh, perkataan "makhluk" boleh dikaitkan dengan konsep seperti "manusia" dan "haiwan". Perkataan pertama akan terus bercabang ke dalam pelbagai profesion, syarat persaudaraan, kewarganegaraan, dan yang kedua - ke dalam kelas dan jenis haiwan.

Penggunaan sistem mendapatkan maklumat

Sfera penggunaan linguistik korpus meliputi pelbagai bidang aktiviti. Corpora digunakan untuk menyusun dan membetulkan kamus, mencipta sistem terjemahan automatik, meringkaskan, mengekstrak fakta, menentukan sentimen dan pemprosesan teks lain.

Selain itu, sumber tersebut digunakan secara aktif dalam kajian bahasa dunia dan mekanisme fungsi bahasa secara keseluruhan. Akses kepada jumlah besar maklumat yang telah disediakan telah menyumbang kepada kajian pantas dan menyeluruh tentang arah aliran dalam perkembangan bahasa, pembentukan neologisme dan perubahan pertuturan yang stabil, perubahan dalam makna unit leksikal, dsb.

Oleh kerana bekerja dengan volum data yang begitu besar memerlukan automasi, hari ini terdapat interaksi rapat antara komputer dan linguistik korpus.

Korpus Kebangsaan Bahasa Rusia

Korpus ini (disingkatkan NKRC) termasuk beberapa subkorpus yang membenarkan penggunaan sumber untuk menyelesaikan pelbagai jenis tugas.

Bahan dalam pangkalan data NCRA dibahagikan kepada:

pada penerbitan dalam media 90-an dan 2000-antahun, dalam dan luar negara;
rakaman ucapan lisan;
teks bertanda aksenologi (iaitu dengan tanda aksen);
pertuturan dialek;
karya puitis;
bahan dengan penanda sintaksis, dsb.

Sistem maklumat juga termasuk subkorpus dengan terjemahan selari karya daripada bahasa Rusia ke dalam bahasa Inggeris, Jerman, Perancis dan banyak bahasa lain (dan sebaliknya).

Selain itu, pangkalan data mempunyai bahagian teks sejarah yang mewakili ucapan bertulis dalam bahasa Rusia dalam pelbagai tempoh perkembangannya. Terdapat juga korpus latihan yang boleh berguna untuk warga asing dalam menguasai bahasa Rusia.

Korpus kebangsaan bahasa Rusia merangkumi 400 juta unit leksikal dan dalam banyak cara mendahului sebahagian besar korpora bahasa Eropah.

Prospek

Fakta yang menyokong untuk mengiktiraf bidang ini sebagai menjanjikan ialah kehadiran makmal linguistik korpus di universiti Rusia, serta di luar negara. Dengan penggunaan dan penyelidikan dalam rangka sumber pencarian maklumat yang dipertimbangkan, pembangunan beberapa bidang dalam bidang teknologi tinggi, sistem soal jawab dikaitkan, tetapi ini telah dibincangkan di atas.

Pembangunan linguistik korpus selanjutnya diramalkan di semua peringkat, dari segi teknikal, dari segi pengenalan algoritma baharu yang mengoptimumkan proses mencari dan memproses maklumat, memperluaskan keupayaan komputer, meningkatkan operasi.ingatan, dan berakhir dengan isi rumah, apabila pengguna mencari lebih banyak cara untuk menggunakan sumber jenis ini dalam kehidupan seharian dan di tempat kerja.

Kesimpulannya

Pada pertengahan abad yang lalu, 2017 kelihatan seperti masa depan yang jauh, di mana kapal angkasa melayari hamparan Alam Semesta dan robot melakukan semua kerja untuk manusia. Walau bagaimanapun, pada hakikatnya, sains penuh dengan "tempat kosong" dan sedang membuat percubaan terdesak untuk menjawab soalan yang meresahkan manusia selama berabad-abad. Soalan tentang fungsi bahasa menjadi kebanggaan di sini, dan korpus serta linguistik pengiraan boleh membantu kami menjawabnya.

Memproses sejumlah besar data membolehkan anda mengesan corak yang sebelum ini tidak boleh diakses, meramalkan perkembangan ciri bahasa tertentu, menjejak pembentukan perkataan hampir dalam masa nyata.

Di peringkat global yang praktikal, korpora boleh dipertimbangkan, sebagai contoh, sebagai alat yang berpotensi untuk menilai sentimen awam - Internet ialah pangkalan data yang dikemas kini secara berterusan bagi pelbagai teks yang dicipta oleh pengguna sebenar: ini adalah ulasan, ulasan, artikel, dan banyak lagi bentuk pertuturan.

Selain itu, bekerja dengan korpora menyumbang kepada pembangunan cara teknikal yang sama yang terlibat dalam pencarian maklumat, yang biasa kepada kami daripada perkhidmatan Google atau Yandex, terjemahan mesin, kamus elektronik.

Adalah selamat untuk mengatakan bahawa linguistik korpus hanya membuat langkah pertama dan akan berkembang pesat dalam masa terdekat.