Pembangunan teknologi maklumat membawa hasil yang praktikal. Tetapi tugas seperti mencari, menganalisis dan menggunakan maklumat belum lagi menerima alat berkualiti tinggi yang berkesan. Terdapat alat analitik dan kuantitatif, ia benar-benar berfungsi. Tetapi revolusi kualitatif dalam penggunaan maklumat masih belum berlaku.
Lama sebelum kemunculan teknologi komputer, seseorang itu perlu memproses sejumlah besar maklumat dan mengatasinya dengan sebaik mungkin mengikut pengalaman dan keupayaan teknikal yang ada.
Pembangunan pengetahuan dan kemahiran sentiasa memenuhi keperluan sebenar dan bersesuaian dengan tugas semasa. Perlombongan data ialah nama kolektif yang digunakan untuk merujuk kepada satu set kaedah untuk menemui pengetahuan yang sebelumnya tidak diketahui, bukan remeh, praktikal berguna dan boleh diakses dalam data, yang diperlukan untuk membuat keputusan dalam pelbagai bidang aktiviti manusia.
Manusia, kecerdasan, pengaturcaraan
Seseorang sentiasa tahu cara bertindak dalam apa jua keadaan. Kejahilan atau keadaan yang tidak biasa tidak menghalangnya daripada membuat keputusan. Objektiviti dan kewajaran sebarang keputusan manusia boleh dipersoalkan, tetapi ia akan diterima.
Kecerdasan adalah berdasarkan: "mekanisme" keturunan, yang diperoleh, pengetahuan aktif. Ilmu digunakan untuk menyelesaikan masalah yang timbul sebelum seseorang.
- Kecerdasan ialah set pengetahuan dan kemahiran yang unik: peluang dan asas untuk kehidupan dan pekerjaan manusia.
- Kepintaran sentiasa berkembang dan tindakan manusia memberi kesan kepada orang lain.
Pengaturcaraan ialah percubaan pertama untuk memformalkan perwakilan data dan proses mencipta algoritma.
Kecerdasan buatan (AI) adalah membuang masa dan sumber, tetapi hasil percubaan yang tidak berjaya abad lalu dalam bidang AI kekal dalam ingatan, digunakan dalam pelbagai sistem pakar (pintar) dan telah diubah, khususnya, ke dalam algoritma (peraturan) dan analisis data matematik (logik) dan Perlombongan Data.
Maklumat dan carian biasa untuk penyelesaian
Perpustakaan biasa adalah tempat simpanan pengetahuan, dan perkataan dan grafik yang dicetak belum lagi menghasilkan tapak tangan kepada teknologi komputer. Buku tentang fizik, kimia, mekanik teori, reka bentuk, sejarah semula jadi, falsafah, sains semula jadi, botani, buku teks, monograf, karya saintis, bahan persidangan, laporan tentang kerja pembangunan, dll. sentiasa relevan dan boleh dipercayai.
Perpustakaan ialah banyak sumber berbeza yang berbezabentuk persembahan bahan, asal usul, struktur, kandungan, gaya persembahan, dsb.
Secara luaran, semuanya boleh dilihat (boleh dibaca, boleh diakses) untuk difahami dan digunakan. Anda boleh menyelesaikan sebarang masalah, menetapkan tugas dengan betul, mewajarkan penyelesaiannya, menulis esei atau kertas penggal, memilih bahan untuk diploma, menganalisis sumber mengenai topik disertasi atau laporan saintifik dan analisis.
Sebarang masalah maklumat boleh diselesaikan. Dengan ketekunan dan kemahiran yang sewajarnya, keputusan yang tepat dan boleh dipercayai akan diperolehi. Dalam konteks ini, Perlombongan Data ialah pendekatan yang sama sekali berbeza.
Selain hasilnya, seseorang menerima "pautan aktif" kepada semua yang dilihat dalam proses mencapai matlamat. Sumber-sumber yang beliau gunakan dalam menyelesaikan masalah boleh dirujuk dan tiada siapa yang akan mempertikaikan hakikat kewujudan sumber tersebut. Ini bukan jaminan keaslian, tetapi ia adalah kesaksian yang pasti kepada siapa tanggungjawab untuk keaslian "dihentikan langganan". Dari sudut pandangan ini, Perlombongan Data bermaksud keraguan besar tentang kebolehpercayaan dan tiada pautan "aktif".
Dengan menyelesaikan beberapa masalah, seseorang mendapat hasil dan mengembangkan potensi inteleknya kepada banyak "pautan aktif". Jika tugas baharu "mengaktifkan" pautan yang sedia ada, orang itu akan tahu cara menyelesaikannya: tidak perlu mencari apa-apa lagi.
"Pautan aktif" ialah perkaitan tetap: bagaimana dan perkara yang perlu dilakukan dalam kes tertentu. Otak manusia secara automatik mengingati semua yang kelihatannya berpotensi menarik, berguna.atau mungkin diperlukan pada masa hadapan. Dalam banyak cara, ini berlaku pada tahap bawah sedar, tetapi sebaik sahaja tugas timbul yang boleh dikaitkan dengan "pautan aktif", ia serta-merta muncul dalam fikiran dan penyelesaian akan diperoleh tanpa mencari maklumat tambahan. Perlombongan Data sentiasa pengulangan algoritma carian dan algoritma ini tidak berubah.
Carian biasa: masalah "artistik"
Perpustakaan matematik dan mencari maklumat di dalamnya adalah tugas yang agak lemah. Mencari satu atau cara lain untuk menyelesaikan kamiran, membina matriks, atau melaksanakan operasi menambah dua nombor khayalan adalah sukar, tetapi mudah. Anda perlu mengisih beberapa buku, kebanyakannya ditulis dalam bahasa tertentu, cari teks yang betul, kaji dan dapatkan penyelesaian yang diperlukan.
Lama kelamaan, penghitungan akan menjadi biasa, dan pengalaman terkumpul akan membolehkan anda menavigasi maklumat perpustakaan dan masalah matematik yang lain. Ini adalah ruang maklumat terhad untuk soalan dan jawapan. Ciri ciri: pencarian maklumat sedemikian mengumpul pengetahuan untuk menyelesaikan masalah yang sama. Pencarian seseorang untuk maklumat meninggalkan kesan ("pautan aktif") dalam ingatannya tentang kemungkinan penyelesaian kepada masalah lain.
Dalam fiksyen, cari jawapan kepada soalan: "Bagaimanakah manusia hidup pada Januari 1248?" sangat susah. Lebih sukar untuk menjawab soalan tentang apa yang ada di rak kedai dan bagaimana perdagangan makanan diatur. Walaupun ada penulis secara jelas dan langsung menulis tentang ini dalam novelnya, jika nama penulis ini dapat dijumpai, maka keraguan tentangkebolehpercayaan data yang diterima akan kekal. Kebolehpercayaan adalah ciri kritikal bagi sebarang jumlah maklumat. Sumber, pengarang dan bukti yang mengecualikan kepalsuan keputusan adalah penting.
Keadaan objektif bagi situasi tertentu
Manusia melihat, mendengar, merasa. Sesetengah pakar fasih dalam perasaan unik - intuisi. Penyataan masalah memerlukan maklumat, proses penyelesaian masalah paling kerap disertai dengan pemurnian pernyataan masalah. Ini adalah masalah kecil yang datang dengan memindahkan maklumat ke dalam perut sistem komputer.
Perpustakaan dan rakan sekerja adalah peserta tidak langsung dalam proses keputusan. Reka bentuk buku (sumber), grafik dalam teks, ciri-ciri pembahagian maklumat kepada tajuk, nota kaki mengikut frasa, indeks subjek, senarai sumber utama - semuanya membangkitkan persatuan dalam diri seseorang yang secara tidak langsung mempengaruhi proses penyelesaian masalahnya.
Masa dan tempat untuk menyelesaikan masalah adalah penting. Seseorang itu diatur sedemikian rupa sehingga dia secara tidak sengaja memberi perhatian kepada semua yang mengelilinginya dalam proses menyelesaikan masalah. Ia boleh mengganggu, atau ia boleh merangsang. Perlombongan Data tidak akan "faham".
Maklumat dalam ruang maya
Seseorang sentiasa berminat hanya dengan maklumat yang boleh dipercayai tentang peristiwa, fenomena, objek, algoritma untuk menyelesaikan masalah. Manusia sentiasa membayangkan dengan tepat bagaimana dia boleh mencapai matlamat yang diingini.
Kemunculan komputer dan sistem maklumat sepatutnya memudahkan kehidupan seseorang, tetapi segala-galanya menjadi lebih rumit. Maklumat berhijrah ke perut sistem komputer dan hilang dari pandangan. Untuk memilih data yang diperlukan, anda perlu mencipta algoritma yang betul atau merumuskan pertanyaan kepada pangkalan data.
Soalan mestilah betul. Hanya selepas itu anda boleh mendapat jawapan. Tetapi keraguan tentang keaslian masih ada. Dalam pengertian ini, Perlombongan Data benar-benar "penggalian", ia adalah "pengekstrak maklumat". Beginilah cara ia bergaya untuk menterjemah frasa ini. Versi Rusia ialah teknologi perlombongan data atau perlombongan data.
Dalam kerja-kerja pakar yang berwibawa, tugas Perlombongan Data ditunjukkan seperti berikut:
- klasifikasi;
- clustering;
- persatuan;
- urutan;
- ramalan.
Dari sudut pandangan amalan yang membimbing seseorang dalam pemprosesan maklumat secara manual, semua pendirian ini boleh dipertikaikan. Dalam apa jua keadaan, seseorang memproses maklumat secara automatik dan tidak berfikir tentang mengelaskan data, menyusun kumpulan objek tematik (mengelompokkan), mencari corak temporal (jujukan) atau meramalkan hasilnya.
Semua kedudukan dalam minda manusia ini diwakili oleh pengetahuan aktif, yang meliputi lebih banyak kedudukan dan secara dinamik menggunakan logik memproses data awal. Alam bawah sedar seseorang memainkan peranan penting, terutamanya apabila dia pakar dalam bidang ilmu tertentu.
Contoh: Jualan borong peralatan komputer
Tugasnya mudah. Terdapat beberapaberpuluh-puluh pembekal peralatan komputer dan perkakasan. Setiap satu mempunyai senarai harga dalam format xls (fail Excel), yang boleh dimuat turun dari laman web rasmi pembekal. Ia diperlukan untuk mencipta sumber web yang membaca fail Excel, menukarnya kepada jadual pangkalan data dan membenarkan pelanggan memilih produk yang diingini pada harga terendah.
Masalah timbul serta-merta. Setiap pembekal menawarkan versi sendiri struktur dan kandungan fail xls. Anda boleh mendapatkan fail dengan memuat turunnya daripada tapak web pembekal, memesannya melalui e-mel atau mendapatkan pautan muat turun melalui akaun peribadi anda, iaitu dengan mendaftar secara rasmi dengan pembekal.
Penyelesaian masalah (pada awalnya) adalah mudah dari segi teknologi. Memuatkan fail (data awal), algoritma pengecaman fail ditulis untuk setiap pembekal dan data diletakkan dalam satu jadual besar data awal. Selepas semua data diterima, selepas mekanisme pertukaran berterusan (harian, mingguan atau selepas perubahan) data baharu diwujudkan:
- tukar pelbagai;
- perubahan harga;
- penjelasan kuantiti dalam stok;
- pelarasan terma waranti, spesifikasi, dsb.
Di sinilah masalah sebenar bermula. Masalahnya ialah pembekal boleh menulis:
- buku nota Acer;
- buku nota Asus;
- komputer riba Dell.
Kami bercakap tentang produk yang sama, tetapi daripada pengeluar yang berbeza. Bagaimana untuk memadankan komputer riba=komputer riba atau bagaimana untuk mengalih keluar Acer, Asus dan Dell daripada barisan produk?
Untukmanusia tidak menjadi masalah, tetapi bagaimana algoritma akan "memahami" bahawa Acer, Asus, Dell, Samsung, LG, HP, Sony adalah tanda dagangan atau pembekal? Bagaimana untuk memadankan "pencetak" dan pencetak, "pengimbas" dan "MFP", "penyalin" dan "MFP", "fon kepala" dengan "alat dengar", "aksesori" dengan "aksesori"?
Membina pepohon kategori berdasarkan data sumber (fail sumber) sudah menjadi masalah apabila anda perlu menetapkan semuanya kepada automatik.
Pensampelan data: penggalian "baru dituangkan"
Tugas mencipta pangkalan data pembekal peralatan komputer telah diselesaikan. Pohon kategori telah dibina, jadual biasa dengan tawaran daripada semua pembekal berfungsi.
Tugas Perlombongan Data Biasa dalam konteks contoh ini:
- cari produk pada harga terendah;
- pilih item dengan kos penghantaran dan harga terendah;
- analisis produk: ciri dan harga mengikut kriteria.
Dalam kerja sebenar pengurus menggunakan data daripada beberapa dozen pembekal, akan terdapat banyak variasi tugas ini, dan lebih banyak lagi situasi sebenar.
Sebagai contoh, terdapat pembekal "A" yang menjual ASUS VivoBook S15: prabayaran, penghantaran 5 hari selepas penerimaan wang sebenar. Terdapat pembekal "B" produk yang sama daripada model yang sama: pembayaran semasa penerimaan, penghantaran selepas tamat kontrak dalam masa sehari, harga adalah satu setengah kali lebih tinggi.
Perlombongan Data bermula - "penggalian". Ungkapan kiasan: "penggalian" atau "perlombongan data" adalah sinonim. Ini tentang cara mendapatkan alasan untuk membuat keputusan.
Pembekal "A" dan "B" mempunyai sejarah penghantaran. Gredprabayaran dalam kes pertama terhadap pembayaran pada penerimaan dalam kes kedua, dengan mengambil kira bahawa kegagalan penghantaran dalam kes kedua adalah 65% lebih tinggi. Risiko pen alti daripada pelanggan adalah lebih tinggi/rendah. Bagaimana dan apa yang perlu ditentukan dan apakah keputusan yang perlu dibuat?
Sebaliknya: pangkalan data dicipta oleh pengaturcara dan pengurus. Jika pengaturcara dan pengurus telah berubah, bagaimana untuk menentukan keadaan semasa pangkalan data dan belajar cara menggunakannya dengan betul? Anda juga perlu melakukan perlombongan data. Perlombongan Data menawarkan pelbagai kaedah matematik dan logik yang tidak mengambil kira jenis data yang sedang dikaji. Ini memberikan penyelesaian yang betul dalam sesetengah kes, tetapi tidak dalam semua.
Bergerak ke alam maya dan mencari makna
Kaedah Perlombongan Data menjadi bermakna sebaik sahaja maklumat ditulis ke dalam pangkalan data dan hilang daripada "medan pandangan". Berdagang dalam peralatan komputer adalah tugas yang menarik, tetapi ia hanya perniagaan. Sejauh mana dia tersusun dalam syarikat bergantung pada kejayaannya.
Perubahan iklim di planet ini dan cuaca di bandar tertentu menarik minat semua orang, bukan hanya pakar iklim profesional. Beribu-ribu penderia mengambil bacaan angin, kelembapan, tekanan, data daripada satelit Bumi buatan dan terdapat sejarah data selama bertahun-tahun dan berabad-abad.
Data cuaca bukan sahaja tentang memutuskan sama ada untuk membawa payung ke tempat kerja atau tidak. Teknologi perlombongan data ialah penerbangan selamat sebuah pesawat, operasi lebuh raya yang stabil dan bekalan produk petroleum yang boleh dipercayai melalui laut.
Data "Mentah" dihantar ke maklumatsistem. Tugas Perlombongan Data adalah untuk mengubahnya menjadi sistem jadual yang sistematik, mewujudkan pautan, menyerlahkan kumpulan data homogen dan mengesan corak.
Kaedah matematik dan logik sejak zaman analitik kuantitatif OLAP (Pemprosesan Analitik Dalam Talian) telah menunjukkan kepraktisannya. Di sini, teknologi membolehkan anda mencari makna, dan tidak kehilangannya, seperti dalam contoh menjual peralatan komputer.
Selain itu, dalam tugas global:
- perniagaan transnasional;
- pengurusan pengangkutan udara;
- kajian isi perut bumi atau masalah sosial (di peringkat negeri);
- kajian kesan dadah pada organisma hidup;
- meramalkan akibat daripada pembinaan perusahaan perindustrian, dsb.
Teknologi Data Lombong dan menukar data “tidak bermakna” kepada data sebenar yang membolehkan anda membuat keputusan objektif ialah satu-satunya pilihan.
Kemungkinan manusia berakhir apabila terdapat sejumlah besar maklumat mentah. Sistem perlombongan data kehilangan kegunaannya apabila ia diperlukan untuk melihat, memahami dan merasakan maklumat.
Pengagihan fungsi dan objektiviti yang munasabah
Manusia dan komputer harus saling melengkapi - ini adalah aksiom. Menulis disertasi adalah keutamaan bagi seseorang, dan sistem maklumat adalah bantuan. Di sini, data yang dimiliki oleh teknologi Data Mining ialah heuristik, peraturan, algoritma.
Menyediakan ramalan cuaca mingguan adalah keutamaan sistem maklumat. Manusia menguruskan data, tetapi mendasarkan keputusannya pada hasil pengiraan sistem. Ia menggabungkan kaedah Perlombongan Data, klasifikasi data pakar, kawalan manual terhadap aplikasi algoritma, perbandingan automatik data lepas, ramalan matematik dan banyak pengetahuan dan kemahiran orang sebenar yang terlibat dalam aplikasi sistem maklumat.
Teori kebarangkalian dan statistik matematik bukanlah bidang pengetahuan yang paling "kegemaran" dan boleh difahami. Ramai pakar sangat jauh dari mereka, tetapi kaedah yang dibangunkan di kawasan ini memberikan hampir 100% hasil yang betul. Dengan menggunakan sistem berdasarkan idea, kaedah dan algoritma Perlombongan Data, penyelesaian boleh diperoleh secara objektif dan boleh dipercayai. Jika tidak, adalah mustahil untuk mendapatkan penyelesaian.
Firaun dan misteri abad yang lalu
Sejarah ditulis semula secara berkala:
- negeri - demi kepentingan strategik mereka;
- saintis berwibawa - demi kepercayaan subjektif mereka.
Sukar untuk memberitahu apa yang benar dan apa yang salah. Penggunaan Data Mining membolehkan kami menyelesaikan masalah ini. Sebagai contoh, teknologi membina piramid telah diterangkan oleh penulis sejarah dan dikaji oleh saintis pada abad yang berbeza. Tidak semua bahan terdapat di Internet, bukan semuanya unik di sini, dan banyak data mungkin tidak mempunyai:
- diterangkan titik dalam masa;
- masa menulis huraian;
- tarikh berdasarkan perihalan;
- penulis, pendapat (pautan) diambil kira;
- pengesahan objektiviti.
Bperpustakaan, kuil dan "tempat yang tidak dijangka" anda boleh menemui manuskrip dari abad yang berbeza dan bukti material masa lalu.
Matlamat menarik: untuk menyatukan segala-galanya dan mencungkil "kebenaran". Ciri masalah: maklumat boleh diperolehi daripada penerangan pertama oleh penulis sejarah, semasa hayat firaun, hingga abad semasa, di mana masalah ini diselesaikan dengan kaedah moden oleh ramai saintis.
Rasional untuk menggunakan Data Mining: kerja manual tidak boleh dilakukan. Terlalu banyak kuantiti:
- sumber maklumat;
- bahasa perwakilan;
- penyelidik menerangkan perkara yang sama dengan cara yang berbeza;
- tarikh, acara dan syarat;
- masalah korelasi jangka;
- analisis statistik mengikut kumpulan data dari semasa ke semasa mungkin berbeza, dsb.
Pada penghujung abad yang lalu, apabila satu lagi kegagalan idea kecerdasan buatan menjadi jelas bukan sahaja kepada orang awam, tetapi juga kepada pakar yang canggih, idea itu muncul: "untuk mencipta semula personaliti."
Sebagai contoh, menurut karya Pushkin, Gogol, Chekhov, sistem peraturan tertentu, logik tingkah laku terbentuk dan sistem maklumat dicipta yang boleh menjawab soalan tertentu seperti yang dilakukan oleh seseorang: Pushkin, Gogol atau Chekhov. Secara teorinya, tugas sebegitu menarik, tetapi dalam praktiknya ia amat sukar untuk dilaksanakan.
Walau bagaimanapun, idea tugasan sedemikian mencadangkan idea yang sangat praktikal: "bagaimana untuk mencipta carian maklumat pintar." Internet banyak membangunkan sumber, pangkalan data yang besar dan ini adalah peluang yang baik untuk menggunakan Perlombongan Data dalam kombinasi dengan manusialogik dalam format pembangunan bersama.
Sebuah mesin dan seorang lelaki yang berpasangan adalah tugas yang sangat baik dan kejayaan yang tidak diragui dalam bidang "arkeologi maklumat", penggalian berkualiti tinggi dalam data dan hasil yang akan meragukan sesuatu, tetapi tanpa keraguan akan membolehkan anda untuk memperoleh pengetahuan baharu dan akan menjadi permintaan dalam masyarakat.