Clustering (pengelompokan) yang dimaksud di sini adalah proses berbantuan komputer untuk mengambil kata-kata atau frasa yang terkandung di dalam metadata, lalu mengumpulkannya menjadi kelompok-kelompok yang memiliki makna semantik sama. Dengan demikian, cantuman-cantuman (records) yang metadatanya mengandung informasi serupa akan berkumpul menjadi satu. Misalnya, cantuman tentang cara merawat bayi akan berkumpul dengan cantuman tentang air susu ibu. Cantuman buku akan berkumpul bersama cantuman-cantuman buku. Cantuman tentang seorang pengarang A akan berkumpul dengan cantuman-cantuman tentang pengarang A tersebut. Kegiatan pengelompokkan seperti ini, tentu saja, sudah dilakukan sejak lama di bidang perpustakaan dan dokumentasi dalam bentuk kegiatan klasifikasi. Bedanya, clustering dilakukan oleh komputer berdasarkan program yang sudah ditetapkan sebelumnya.

Untuk dapat mengumpulkan cantuman atau dokumen yang memiliki persamaan dalam makna semantik, sebuah program komputer harus disertai oleh “kerangka berpikir” yang dapat mengenali persamaan-persamaan makna tersebut. Biasanya, pola pikir ini disebut “model”. Salah satu model itu misalnya adalah Topic Modelling, yakni pola pengenalan topik melalui pengenalan kata-kata. Dalam model ini, sebuah dokumen dianggap selalu mengandung topik, dan topik ini merupakan serangkaian kata-kata. Contohnya:

     •        Kacang panjang, wortel, toge, kangkung, bumbu kacang = sayur gado-gado
     •        Mahasiswa, dosen, pembimbing, plagiat, metode penelitian = penulisan skripsi

Dalam contoh di atas, maka “topic model” merupakan kumpulan kata-kata dalam berbagai dokumen yang memiliki kesamaan makna atau konteks. Model seperti ini dikembangkan berdasarkan metode-metode sebelumnya, seperti Latent Semantic Analysis dan document clustering. Pada dasarnya, metode-metode ini adalah metode statistik probabilitas yang diterapkan pada bahasa. Artinya, metode ini menganggap bahwa kemunculan kata-kata dalam sebuah dokumen dapat memiliki nilai dan berdasarkan nilai tersebut kita dapat menghitung kemungkinan (probabilitas) persamaan atau perbedaan antar kata.

Latent Semantic Analysis (LSA) adalah sebuah teori dan metode untuk menyarikan dan membuat perwakilan berupa kata-kata yang memiliki konteks makna serupa, dengan memanfaatkan penghitungan statistik Disebut ‘laten’ (tersembunyi) karena beberapa makna dalam kata memang tersembunyi di balik kata itu atau di balik sekelompok kata yang berbeda. Dalam teknologi komputer, latent semantic analysis (LSA) merupakan bagian dari teknologi pengolahan bahasa alamiah (natural language processing), terutama yang menggunakan pemikiran tentang vectorial semantics. Teori yang mendasarinya mengatakan bahwa sekumpulan kata dapat membentuk konteks makna, dan keberadaan sebuah kata di konteks itu merupakan petunjuk tentang maknanya. Dalam pemikiran ini diasumsikan bahwa setiap kata di dalam sebuah teks dapat diberi nilai dan bobot, dan kemudian nilai atau bobot tersebut dapat digunakan untuk menilai seberapa ‘dekat’ hubungan antar kata-kata itu. Lihat juga pembahasan tentang model vektor (vector model) di bawah tajuk Information Retrieval.

Dalam praktiknya, komputer tentu saja tidak dapat dengan sendirinya membuat dan menggunakan sebuah model atau pola pikir tertentu. Dalam melakukan clustering, program komputer pertama-tama harus mendapat masukan berupa apa yang disebut “bag of words” (sekantong kata-kata). Pembuatan “kantong” ini sebenarnya adalah sebuah skema representasi (perwakilan) kata-kata yang ada dalam sekumpulan dokumen. Dengan cara ini sebenarnya sebuah teks diwakilkan sebagai sebuah vektor yang elemen-elemennya merupakan pembobotan berdasarkan frekuensi kemunculan kata-kata di dalam teks bersangkutan. Vektor dari bag of words ini kemudian diperhalus, misalnya dengan memperhatikan pula frekuensi dokumen atau keterkaitan antar dokumen. Perlu diketahui pula, pengertian bag atau kantong di sini adalah sebuah kumpulan yang menginjinkan pengulangan dan memperhitungkan frekuensi kemunculan kata-kata, tetapi mengabaikan urut-urutan kemunculannya di dalam sebuah dokumen. Jadi, bag of words sebenarnya mengabaikan tata-bahasa. Sebuah kata atau istilah di sini dianggap sebagai segala huruf yang berurutan dan dipisahkan oleh spasi atau tanda baca.

Dalam aplikasinya, program clustering ini dapat diintegrasikan ke search engine di Internet. Misalnya, Google Sets – http://labs.google.com/sets. Program ini menggunakan clustering untuk membantu kita membuat kelompok kata-kata yang dianggap serupa atau berkaitan. Misalnya kita ketik 3 kata seperti ini:

Image:Clustering1.jpg

Setelah kita menekan tombol “small set (15 items or fewer)”, Google Sets akan menjawabnya dengan serangkaian kata lain (anjing, kucing, ayam, kuda, kelinci, babi, dan seterusnya). Terlihat bahwa Google Sets berhasil menemukan kata-kata di Internet yang diperkirakan masuk dalam kelompok “kucing anjing ayam”. Kita kemudian dapat meng-klik salah satu kata di atas untuk meminta Google melakukan pencarian seperti biasanya. Dengan kata lain, program clustering Google Set merupakan alat bantu untuk membuat keterkaitan antar-kata sebelum mencari.

Contoh lain adalah Ask di http://www.ask.com/ yang juga melakukan clustering di awal pencarian dengan menampilkan sebuah daftar kata-kata ketika kita sedang mengetik di kolom search-nya.

Image:Clustering2.jpg

Setelah meng-klik salah satu kata yang diusulkan Ask (misalnya, “indonesia culture”), kita akan berhadapan dengan berbagai pilihan situs, termasuk konteks kata-katanya:

Image:Clustering3.jpg

Kolom sebelah kiri di gambar di atas memperlihatkan kata-kata yang dianggap ada dalam konteks “Indonesia culture”, bahkan juga ada usulan untuk memperluas lingkup pencarian (“expand your search”). Contoh di atas mungkin masih terlalu sederhana, karena pengelompokan kata dilakukan dengan berpegangan pada kesamaan kata (Indonesia).

Clusty di http://clusty.com/ melakukan clustering dalam bentuk hasil pencarian yang juga membantu pencari informasi mengumpulkan situs-situs yang dianggap relevan ke dalam satu kelompok tersebut. Kemudian Clusty juga menawarkan pencarian khusus di dalam kelompok itu saja. Misalnya:

Image:Clustering4.jpg