Kegiatan harvesting atau lebih tepatnya metadata harvesting alias memanen metadata tidak dapat dilepaskan dari konsep dan kegiatan yang dinamakan Open Archive Initiative dan federated searching. Komputer melakukan harvesting dengan mengumpulkan metadata dari berbagai simpanan materi digital dan menghimpunnya di satu tempat agar dapat ditelusur secara lebih efektif dan efisien. Untuk dapat melakukan hal ini, komputer dan programnya tidak dapat dilepaskan dari kehadiran Open Archives Initiative – Protocol for Metadata Harvesting (OAI-PMH) atau disingkat juga menjadi Metadata Harvesting Protocol (MHP), sebuah protokol atau standar yang memungkinkan interoperability antar berbagai pangkalan data, khususnya untuk keperluan pencarian secara sekaligus.

Masalah awal yang ingin diatasi oleh metadata harvesting dan MHP adalah pertumbuhan yang amat pesat dari arsip-arsip e-prints yang tersedia secara terbuka di berbagai servers. Arsip-arsip ini merupakan karya ilmiah yang ditempatkan oleh pengarangnya sebagai bagian dari upaya memperluas komunikasi antar ilmuwan lewat infrastruktur digital. Dalam perkembangan selanjutnya, protokol harvesting ini akhirnya menjadi lebih dari sekadar mengurusi pertukaran artikel, melainkan juga masalah isi, model bisnis, persoalan hak kekayaan intelektual, dan alur informasi secara keseluruhan. Keadaan itulah yang akhirnya menyebabkan protokol ini disebut Open Archives Protocol yang lalu berubah lagi menjadi MHP, sebagai bagian yang tak terpisahkan dari gerakan OAI.

Secara garis besarnya, MHP merupakan protokol untuk membuat perangkat antarmuka yang dapat digunakan sebuah server (tidak lagi harus selalu server untuk e-print) untuk membuat metadata tentang koleksi itu terbuka bagi server lainnya. Dengan cara seperti ini, maka kedua server tersebut praktis sudah dapat berkomunikasi. Kalau sebuah server menggunakan MHP, maka secara teknis dan otomatis dia sudah menjadi bagian dari sebuah jaringan yang terbuka untuk diakses, namun harus diingat bahwa MHP hanya mengatur akses ke metadata. Sebuah server dapat saja menutup akses selanjutnya, sehingga tidak semua pihak dapat melihat atau mengambil data yang tersimpan di sana.

Ketika MHP pertama kali dicanangkan, ada kebutuhan mendesak di kalangan para aktivis e-print untuk memiliki semacam cara yang memungkinkan seseorang mencari sebuah artikel di antara sekian banyak artikel yang disimpan di berbagai server. Juga ada kebutuhan untuk membuat server yang mampu mengenali artikel yang baru dimuat di berbagai server lainnya, sehingga seorang aktivis e-print tidak perlu secara hastawi dan sendiri-sendiri mengumumkan keberadaan artikel yang baru saja dia tempatkan di server kampusnya. Sebagai lanjutan dari keinginan ini, muncul pula keinginan untuk membuat mekanisme federated search yang lebih baik, terutama dalam hal pencarian yang lintas disiplin (multidisiplin). Semua persoalan ini coba diatasi dengan berkonsentrasi pada upaya menyediakan antarmuka di setiap server, sedemikian rupa sehingga akhirnya semua server dapat saling berkomunikasi secara otomatis. Salah satu keputusan penting yang diambil waktu itu adalah dengan memakai model yang menolak cara-cara pencarian tersebar (distributed search). Sebaliknya, dipilihlah model yang lebih sederhana, yakni yang semata-mata membuat server terbuka untuk dipanen. Keterbukaan ini juga dibuat fleksibel, dan bergantung kepada keputusan si pengelola server yang dapat menentukan sendiri lingkup kandungan metadata, hirarki hak akses, dan lingkup subjek yang disediakan. Misalnya, sebuah server bisa saja hanya membuka ruas-ruas utama dari metadata koleksinya, dan hanya menyediakan akses sampai ke tingkat abstrak.

Dengan memakai model membuka server seperti itu, maka sebenarnya kerumitan dalam proses pencarian dan penemuan artikel dipindahkan ke program yang akan melakukan federated search. Dengan kata lain “tuan rumah” (server tempat artikel yang dicari) akan lebih ringan kerjanya, sementara si “tamu” (program federated search yang berkeliling mencari artikel) akan bekerja lebih keras. Selain itu, model membuka server ini juga mengurangi kemungkinan ketergantungan antara kualitas program pencari sebagaimana dipersepsi oleh pemakai, dan perilaku atau kinerja server yang dikunjungi program pencari itu. Artinya, dengan model ini para pencari diharapkan tidak terlalu merasakan perbedaan antar server, karena baginya semua server itu “di belakang layar”. Kemampuan program federated search lah yang kini jadi ukuran efisiensi dan efektivitas.

Secara teknis, Metadata Harvesting Protocol menggunakan kerangka transaksi sederhana yang dikenal sebagai “request-response” atau kalau diterjemahkan ke dialek Jakarta, mungkin adalah “enté minta, ané beri” yang berbasis HTTP. Kerangka ini adalah kerangka komunikasi antar sebuah server penyimpan dan server si tukang panen. Program pemanen akan meminta metadata dari server, sesuai dengan yang tersedia dan sesuai batasan-batasan yang ditetapkan si tuan rumah. Permintaan itu akan dijawab dengan serangkaian metadata (dalam format XML) ditambah dengan berberapa identifiers atau penanda (misalnya, alamat atau URL). Transaksi panen ini kemudian juga dilengkapi beberapa fasilitas tambahan, misalnya fasilitas yang menjelaskan hak akses dan kriteria pembatasan akses.

Di dalam MHP juga diatur tentang kesepakatan menggunakan skema metadata Dublin Core dengan level unqualified alias yang paling sederhana, dan yang ditulis dengan XML, sebagai common denominator yang paling rendah. Artinya, setiap server setidak-tidaknya harus menggunakan skema yang ekuivalen atau lebih lengkap dari Dublin Core. Artinya pula, setiap server yang mengacu ke MHP tetap punya kebebasan memilih metadata apa yang digunakan, dan server tukang panen pun boleh saja meminta data dalam skema tertentu. Ketika hal ini diputuskan, ide dasarnya adalah membiarkan komunitas penyedia maupun pemanen untuk berkembang perlahan-lahan, sampai akhirnya mempunyai berbagai kesepakatan tentang metadata bersama. Hal yang harus dijaga tanpa ditawar-tawar lagi hanyalah satu: metadata itu dapat disediakan dan dipertukarkan dalam format XML.