Sebagian besar pembicaraan tentang perpustakaan digital menyangkut teks, padahal bersamaan dengan kemajuan teknologi informasi dan ketersediaannya yang amat meluas, maka citra atau imej digital kini juga berlipat-ganda jumlahnya. Sering pula kita lupa, bahwa citra berupa gambar (termasuk peta) atau foto (dan kemudian juga film atau gambar hidup) sudah sejak lama menjadi bagian dari koleksi perpustakaan; dan ketika fenomena perpustakaan digital muncul, maka terikutlah fenomena citra digital di dalamnya. Namun memang adalah benar pula, bahwa dari segi penyimpanan dan temu-kembali atau retrieval, sejak lama citra dianggap serupa dengan teks dan diberlakukan sebagai teks ketika hendak diindeks.

Cara tradisional untuk mengelola koleksi berupa citra adalah dengan mengenakan serangkaian deskriptor (keterangan singkat) kepada setiap citra untuk menjadi wakil atau indeksnya dalam sebuah sistem temu kembali. Deskriptor ini diambil dari sebuah kosakata, dengan mengikuti panduan-panduan sesuai bidang kegiatan yang berkaitan dengan citra itu, atau tujuan penyimpanannya dalam suatu organisasi. Perpustakaan, museum, dan arsip mempunyai prosedur tersendiri dalam hal membuat deskriptor untuk keperluan indeks atau klasifikasi bagi koleksi berupa citra. Persamaannya adalah, deskriptor itu berupa teks yang kemudian akan menjadi alat untuk menemukan lokasi citra di tempat penyimpanannya. Ketika memasuki era citra digital pun, kebiasaan ini tidak berubah dan orang pun berbicara tentang metadata untuk citra digital (tentang metadata secara umum). Selain itu, pembuatan deskriptor untuk citra ini tak ubahnya dengan pengindeksan dan proses klasifikasi terhadap dokumen tercetak yang dilakukan secara hastawi. Alat-alat yang dapat membantu pembuatan deksriptor citra pun seringkali sama, mulai dari sistem tajuk subjek, sistem klasifikasi, kosakata terkendali, sampai thesaurus.

Hambatan yang segera muncul dari pendekatan tradisional dalam sistem temu-kembali citra tentunya adalah karena “sebuah gambar dapat berbicara seribu kata”. Untuk menyediakan titik akses yang handal bagi sebuah gambar, seringkali diperlukan sejumlah besar deskriptor. Sering pula muncul dilema antara keinginan untuk mempertahankan keunikan dari sebuah citra atau objek yang ada di dalam citra itu, dengan keinginan untuk mengefektifkan akses dengan menggunakan semacam daftar kosakata terkendali. Sesuatu yang unik tentu saja seringkali tidak dapat dideskripsikan dengan kotakata umum. Dalam dilema seperti ini, seringkali seorang pengindeks citra mengalami kesulitan menentukan apa yang akan diindeks, atau menghilangkan titik akses yang mungkin justru diperlukan, ketika dia melakukan pengeindeksan.

Hal lain yang dapat memusingkan pengindeks citra adalah kebutuhan akan interaksi dan kaitan (linkage) antar berbagai aspek yang terkandung di sebuah citra. Ini sangat berkaitan dengan kebutuhan pengguna citra tersebut. Berbagai penelitian tentang perilaku pengguna koleksi citra di perpustakaan seringkali menemukan bahwa seseorang bukanlah mencari koleksi citra yang berisi gambar atau objek tertentu, melainkan mencari citra yang mengungkapkan konsep tertentu. Misalnya, seorang pengguna seringkali tidak hanya mencari foto seorang gadis, melainkan foto yang mengesankan kesedihan, atau lukisan yang mengesankan kemerdekaan. Dengan kata lain, harus ada deskriptor yang dapat menghubungkan antara persepsi visual (gambar gadis yang menatap nanar ke lensa kamera, foto langit biru bersih yang lapang) dengan konsep yang abstrak (kesedihan, kebebasan).

Belum lagi kemudian juga ada persoalan konteks dari sebuah citra, yaitu kondisi atau situasi ketika citra itu dibuat. Konteks ini juga dapat berupa sebuah kumpulan citra yang memberikan makna khusus bagi satu citra yang menjadi bagian dari kumpulan itu (misalnya foto-foto perjuangan kemerdekaan memberi konteks kepada foto Bung Tomo yang berpidato di depan mikrofon radio). Seringkali, karena hanya berkonsentrasi pada deskriptor yang terbatas (misalnya, lokasi foto, peristiwa yang terkandung, nama fotografer), sebuah sistem penyimpanan akhirnya tidak mengandung informasi tentang hal-hal yang kontekstual, misalnya mengapa sebuah foto diambil, keterbatasan teknis yang terjadi ketika foto diambil, kondisi sosial sewaktu foto diambil, dan sebagainya. Haruslah diingat lagi bahwa sistem pengindeksan citra yang kita bicarakan ini merupakan sistem yang menggunakan teks sebagai deksriptornya, dan teks ini datang dari manusia pengindeks, sebab citra itu sendiri tidak dapat “berbicara”. Jadi, selalu ada isu tentang ketidak-konsistenan dan ketergantungan kepada kemampuan pengindeks dalam menginterpretasi sebuah citra.

Teknologi digital menghasilkan sebuah kemungkinan dan tantangan yang amat berbeda dari teknologi pencitraan analog yang selama ini kita pakai. Berbeda dari sebuah citra analog yang secara fisik adalah satu benda, atau serangkaian benda yang terpisah, maka sebuah citra digital adalah data yang dapat diolah kembali untuk berbagai keperluan secara amat fleksibel. Definisi citra digital atau citra elektronik ini adalah: “serangkaian data yang dihasilkan dengan merekam variasi dalam intensitas sinyal, baik yang dipantulkan oleh sebuah permukaan atau yang sebagiannya terserap ketika melewati permukaan itu” (Pavlidis, sebagaimana dikutip Jorgensen, 2003). Citra digital seperti ini merupakan kumpulan dari komponen-komponen yang dapat diolah lagi, dan dikenal dengan istilah pixel.

Untuk keperluan penyimpanan dan temu-kembali citra digital ini, berkembang riset dan aplikasi yang biasa disebut content-based image retrieval atau disingkat CBIR. Dalam model CBIR, sebuah citra diwakili oleh sebuah penanda yang khas, atau signature, terdiri dari fitur-fitur yang diambil dari nilai pixel-nya. Atribut seperti warna diproses sebagai nilai dan dianggap sebagai salah satu fitur. Untuk menemukan-kembali sebuah citra, maka dilakukanlah perbandingan dan pencocokan fitur. Dari perspektif CBIR, maka statistik tentang fitur-fitur di sebuah citra memainkan peranan amat penting. Pengguna sebuah sistem berbasis CBIR akan menganggap diri mereka sebagai pencari data tentang sebuah objek atau seseorang, walau dalam kenyataannya dia hanya dapat mencari citra yang memiliki kesamaan distribusi properti (misalnya warna atau tekstur).

Fitur dapat bersifat global atau lokal. Sebuah fitur global biasanya bersifat “coarse grained” (kasar), artinya fitur itu secara kasar atau umum mewakili citra secara keseluruhannya, misalnya dalam bentuk distribusi warna. Sedangkan fitur lokal adalah representasi yang lebih “halus” yang dicapai dengan melakukan segmentasi dan pemisahan citra menjadi wilayah-wilayah yang lebih kecil, misalnya yang menyangkut warna, terpisah dari tekstur, dan bentuk. Fitur global menawarkan keuntungan berupa kesederhanaan dalam program komputasi dan algoritme temu-kembali yang berdasarkan kecocokan pola (pattern-matching). Fitur ini sudah cukup memadai, jika pencarian hanya dilakukan untuk satu entitas saja. Misalnya, hanya menggunakan warna untuk mencari di antara sekian banyak gambar. Sebaliknya, fitur lokal dapat digunakan untuk identifikasi lebih rinci, tetapi tentunya memerlukan daya komputasi lebih besar. Pencarian pun dapat lebih rumit, misalnya berdasarkan warna, bentuk, dan posisi (mencari “langit biru di atas perbukitan”).

CBIR berasal dari dua teknologi, yaitu penampakan oleh mesin (machine vision) dan pemahaman citra (image understanding) yang tujuan utamanya adalah mengenali dan melakukan klasifikasi objek secara otomatis. Mesin berusaha mengenali komposisi sebuah objek dengan memakai panduan objek yang lebih sederhana. Objek yang rumit diurai dengan menggunakan aturan komposisi yang berisi kategori sederhana (mengandung atau tidak mengandung bentuk tertentu). Jadi, mesin melakukan segmentasi terhadap sebuah citra menjadi unit-unit yang dapat diproses dan dianalisis. Pada masa-masa awal riset CBIR, para peneliti berkonsentrasi pada fitur global. Salah satu fitur yang paling sering dipakai di laboratorium adalah color histogram[1] sebagaimana dipakai di sistem-sistem awal seperti IBM QBIC dan Berkeley Chabot. Tentu saja color histogram tidak mengandung informasi ruang (spatial), padahal informasi ini amat penting dalam pemaknaan sebuah gambar. Sebab itu, eksperimen-eksperimen selanjutnya berupaya memasukkan informasi ruang, misalnya dalam bentuk color coherence vector (CCV), dengan memasukkan nilai jarak dan posisi kedalam perbedaan warna di dalam sebuah gambar.

Eksperimen sedang terus berlangsung, dan belakangan ini muncul pendekatan berbasis pembagian wilayah di dalam gambar (region-based approaches). Dalam pendekatan ini, sebuah gambar akan dibagi-bagi menjadi beberapa keping wilayah atau regions. Proses temu-kembali dilakukan berdasarkan kesamaan bentuk wilayah tersebut. Sistem seperti Berkeley Blobworld dan UCSB NeTra menggunakan cara komparasi citra terhadap wilayah-wilayah yang dikelompokkan secara individual. Seseorang yang akan mencari sebuah gambar pertama-tama akan menetapkan wilayah yang akan dijadikan patokan, lalu komputer akan menggunakan fitur di pilihan tersebut sebagai patokan untuk mencari gambar yang cocok. Pendekatan ini kemudian berkembang menjadi integrated region matching atau IRM yang menggunakan pencocokan satu wilayah di satu citra ke berbagai citra lainnya. Lalu, kesamaan dan perbedaan wilayah antara citra-citra itu diberi nilai dan dijadikan penentu memisahkan atau mengelompokkan berbagai citra. Dengan kata lain, terciptalah klasifikasi dan pengindeksan berdasarkan isi dari citra-citra tersebut.
________________________________________
[1] Dalam bidang grafis berbantuan komputer dan fotografi digital, histogram warna merupakan cara untuk menggambarkan keadaan distribusi warna di sebuah citra. Keadaan distribusi ini terkait dengan jumlah pixels di setiap rentang warna yang berada di dalam ruang warna dua dimensi maupun tiga dimensi. Dapat pula dikatakan bahwa histogram merupakan deskripsi secara statistik tentang frekuensi kehadiran sebuah warna tertentu. Color histogram sebenarnya mempunyai fungsi lebih terbatas dibandingkan image histogram karena yang terakhir ini mengandung data tentang keadaan gambar dan distribusi frekuensi dari bentuk-bentuk tertentu di sebuah gambar.