Istilah invisible web merujuk ke sumber-sumber informasi di Internet yang belum terjangkau oleh mesin pencari (search engines) yang biasa dipakai oleh umum seperti Google dan Yahoo!, baik karena si mesin mengabaikan sumber-sumber tersebut, maupun karena si penyedia sumber mengupayakan agar informasi yang dibuatnya tidak terlacak. Sebagaimana telah dibahas secara umum di bagian tentang information retrieval , data dan informasi yang tersimpan secara digital hanya dapat ditemukan jika terdapat cara untuk mengidentifikasi atau mengenali isi dan lokasinya. Mesin pencari di Internet bekerja dengan prinsip yang sama dengan semua prinsip penyimpanan dan penemuan kembali, yaitu menyediakan sarana untuk mengenali isi dan lokasi jutaan entitas digital. Kecepatan dan ketepatan dalam upaya menemukan data dan informasi ini ditentukan oleh kemampuan sebuah sistem pencarian mengindeks dan mengelola indeks tersebut.

Jumlah invisible web belum pernah dapat ditetapkan, seperti halnya volume keseluruhan Internet itu sendiri juga sulit ditetapkan. Namun ada dugaan bahwa jumlah invisible web ini sudah melebihi jumlah yang visible. Demikian pula, kualitas kandungan informasi yang tidak terlacak ini mungkin saja lebih tinggi dari informasi yang mudah terlacak.

Menurut Sherman dan Price (2001, 2003) ada empat kategori invisible web, yaitu:

1. Web yang tersamar atau tersembunyi (the opaque web). Tergolong dalam kategori ini adalah sumber-sumber informasi di Internet yang sebenarnya dapat diindeks oleh mesin pencari, tetapi pengindeksan tetap tidak dilakukan. Ada beberapa alasan mengapa ini tidak dilakukan, dan salah satunya berkaitan dengan seberapa ‘dalam’ dan seberapa sering sebuah mesin menjelajah sumber-sumber di Internet (dikenal dengan istilah crawling). Sebuah halaman web seringkali terletak di jenjang paling ‘bawah’ atau paling ‘dalam’ dari serangkaian halaman yang tersusun secara hirarkis. Jika mesin pencari hanya mengindeks halaman-halaman terdepan dari sebuah web, maka tentu saja tidak seluruh isi web terindeks. Jika isi web yang tidak terindeks tersebut juga tidak terwakili oleh isi halaman-halaman depan yang sudah terindeks, maka praktis sebagian dari web ini tersembunyi dari mesin pencari. Selain itu, sebagian besar isi web bersifat dinamis, karena teknologi digital memungkinkan perubahan dan pergantian informasi secara amat cepat dan mudah. Jika perubahan-perubahan ini tidak terdeteksi, praktis informasi yang terkandung di dalamnya juga tak terlacak oleh mesin pencari. Seringkali ketidak-terlacakan ini disebabkan pula oleh kesenjangan waktu antara perubahan informasi dan pengindeksan. Hal lain yang dapat ‘menyembunyikan’ sebuah halaman web sebenarnya adalah akibat dari fasilitas mesin pencari yang menyediakan pilihan pencarian secara ‘mudah’ (basic), sementara pencarian dengan tingkat presisi yang lebih tinggi melalui pilihan advance searching kurang diminati para pengguna. Akibatnya, banyak informasi yang sebenarnya lebih relevan tak terlacak oleh mesin, atau diletakkan jauh di belakang dalam urutan hasil pencarian.

2. Web yang aksesnya sengaja dibuat pribadi atau tidak untuk umum (the private web). Ini merupakan sumber-sumber informasi yang sebenarnya dapat diindeks, namun sengaja pula diabaikan oleh crawler (penjelajah yang dibuat oleh pengelola search engine) sebab pemilik sumber informasi ini memang tidak ingin milik mereka diindeks untuk umum. Biasanya ada katasandi (password) yang harus ditembus untuk mengakses sumber seperti ini, atau ada berkas robots.txt dan kategori “noindex” di dalam tag dokumen yang bersangkutan. Jadi, memang sumber-sumber informasi seperti ini sengaja dibuat tersembunyi oleh pemiliknya.

3. Web yang aksesnya dibatasi oleh hak pemakaian (the proprietory web). Sama halnya dengan private web, sumberdaya informasi ini secara sengaja disediakan untuk kalangan terbatas yang memerlukan registrasi untuk memakainya. Sebagian dari situs yang menyediakan sumberdaya ini menarik bayaran, tetapi ada juga yang hanya memerlukan registrasi tanpa menarik bayaran. Search Engine tentunya tidak dapat mengakses dan mengindeks isi dari situs-situs itu karena tidak memiliki mekanisme registrasi.

4. Web yang benar-benar tak terlacak (the truly invisible web). Seperti ditengarai oleh Hsieh-Yee (2001), hampir semua search engine dibuat untuk mengindeks halaman HTML yang statis. Padahal halaman yang demikian ini hanyalah merupakan sebagian dari isi Internet. Nah, halaman-halaman yang non-statis, yang berubah-ubah sesuai program tertentu atau yang berubah setelah berinteraksi dengan pengguna, dikategorikan sebagai “benar-benar tak terlacak” alias truly invisible. Termasuk pula dalam kategori ini sumberdaya digital yang baru terbentuk secara dinamis di saat pengguna melakukan sesuatu tindakan khusus (misalnya kumpulan artikel yang dihimpun dan diambil berdasarkan satu permintaan khusus) atau sumberdaya yang secara otomatis dihasilkan oleh kegiatan antar-mesin seperti yang terjadi pada proses Web service . Ini disebut juga sebagai deep web (Bergman, 2001). Demikian pula, beberapa jenis objek digital yang berbentuk postcript , flash, atau streaming video (misalnya dalam bentuk siaran televisi digital) belum dapat sepenuhnya diindeks oleh search engine sehingga praktis tak terlacak. Selain faktor teknis di pihak search engine, juga ada faktor yang ditimbulkan oleh perilaku penggunaan Internet itu sendiri sebagai reaksi atas kinerja search engine yang sudah menjadi kebiasaan. Misalnya, kebiasaan pengguna Internet membuka hanya dua halaman di layar ketika memeriksa hasil pencarian, atau kebiasaan membatasi pemeriksaan hanya sampai 10 temuan. Padahal berbagai search engine lebih sering menemukan ribuan atau ratusan ribu lokasi sumberdaya digital. Tentu saja, fasilitas penjajaran (ranking) menjadi amat menentukan kebiasaan tersebut.

Pengguna yang sering kecewa setelah letih membuka satu persatu lokasi yang terlacak, akhirnya tidak mau lagi mengulangi kebiasaan memeriksa semua temuan. Celakanya, search engine tidak dapat mengenali kebiasaan ini sehingga terus menyediakan hasil temuan yang berlebihan. Kalau hasil temuan yang sebenarnya amat relevan justru diletakkan jauh di belakang dalam urutan temuan, maka temuan itu sama saja dengan invisible, bukan?

Hal lain yang juga sering menjengkelkan pengguna dan kemudian membentuk perilaku skeptis adalah situasi ‘putus hubungan’ dalam rujukan ke lokasi objek digital, atau dikenal dengan istilah disconnected URL. Termasuk di sini adalah halaman-halaman web yang berubah link-nya, atau yang merujuk ke halaman lain tetapi halaman yang dirujuknya sudah terhapus atau sudah berubah lokasi. Penghapusan tentu saja dilakukan secara hastawi dan belum tentu dilaporkan kepada si pembuat web yang merujuknya. Selain itu, selalu ada kesenjangan waktu antara penghapusan atau pemindahan dan pengindeksan oleh search engine. Akibatnya, objek digital yang berpindah-pindah seringkali juga tak terlacak, walaupun sebenarnya masih bercokol entah di mana di belantara Internet. Block (2004) mengistilahkan halaman-halaman ini sebagai the dead web dan konon jumlahnya bisa mencapai 20 persen dari isi Internet yang berhasil diindeks search engine. Atas dasar kenyataan-kenyataan di atas, seringkali pengawasan dan pelacakan terhadap isi Internet menjadi bagian dari pekerjaan para pengelola perpustakaan digital. Jasa berupa ‘resensi’ terhadap situs-situs di Internet akhirnya menjadi jasa yang cukup dicari-cari oleh pengguna sebagai patokan dalam pencarian.