Pengindeksan dan Akses Lintas Domain untuk Data dan Metadata – DataONE membutuhkan penyimpanan, pencarian, dan pengambilan informasi (data dan metadata) dari berbagai layanan data (misalnya Mercury, Metacat, dan OpenDAP).
Pengindeksan dan Akses Lintas Domain untuk Data dan Metadata
indexunlimited – Semua sistem ini memiliki antarmuka layanan data yang berbeda, mendukung standar metadata yang berbeda, dan menerapkan mekanisme dan sintaks kueri yang berbeda. Data harus direplikasi antara instans layanan (Node Anggota, MN) dan metadata harus direplikasi antara semua node (Node Koordinasi, CN, dan Node Anggota) untuk memastikan ada banyak salinan untuk menghindari kehilangan data jika terjadi kegagalan node dan untuk meningkatkan akses melalui kedekatan geografis.
Baca Juga : Cara Untuk Membangun Indeks Domain
Beberapa pendekatan umum untuk masalah ini meliputi:
- menerjemahkan metadata ke dan dari format/model yang digunakan secara internal oleh MN
- memperlakukan dokumen metadata sebagai objek buram dan hanya menyimpannya di MN, CN menyediakan layanan pengindeksan yang menemukan salinan dokumen metadata
- MN harus mengimplementasikan format metadata tujuan yang sangat umum, tetapi secara opsional dapat membuat metadata tersedia dalam format yang lebih spesifik
Pendekatan
Terjemahan antara semua format metadata dan antarmuka layanan data diimplementasikan. Dalam skenario ini, metadata diterjemahkan ke format metadata asli (atau di mana beberapa format didukung, ke bentuk yang paling sesuai) yang didukung oleh MN dan disimpan menggunakan API asli layanan. API umum menyediakan integrasi antara semua MN, menyediakan operasi dasar yang diperlukan untuk mengelola dan mengambil konten. Mungkin komponen yang paling sulit dari pendekatan ini adalah penerjemahan metadata ke format yang didukung secara internal oleh layanan.
Masalah:
- nxn terjemahan dua arah untuk metadata yang akan ditulis, diuji, dan dipelihara.
- Terjemahan metadata hampir selalu menyebabkan hilangnya informasi
Keuntungan:
- Tidak ada atau sedikit perubahan pada layanan yang ada (fungsi terjemahan diperlukan).
Pendekatan
Menerapkan API layanan umum pada semua node yang memperlakukan data dan metadata sebagai unit terpisah yang dapat dibaca dan ditulis ke node mana pun. Himpunan semua node kemudian menjadi perangkat penyimpanan yang besar. CN mengimplementasikan proses yang mendistribusikan konten di antara semua node (seperti driver sistem file) untuk menyediakan fungsionalitas tingkat sistem dasar. Dokumen metadata yang sebenarnya buram ke sistem penyimpanan yang mendasarinya.
Metadata tidak dicari secara langsung tetapi diindeks dengan mengekstraksi konten yang cocok dengan istilah pencarian yang setara secara semantik. Contoh sepele adalah penggunaan istilah Dublin Core untuk mencari di semua jenis metadata. Dalam hal ini, “dublin core metadata extractor” mengekstrak nilai term dari dokumen metadata dan memperbarui indeks yang mendukung bidang DC dengan nilai dan PID dokumen. Pencarian pada indeks mengembalikan dokumen PID, yang kemudian diambil menggunakan MN API.
Masalah:
- Tidak dapat memperlakukan data yang tersedia melalui antarmuka layanan sebagai unit terpisah (misalnya antarmuka layanan MySQL)
- Perlu pengurai untuk semua format metadata untuk mengekstrak konten tertentu
- Infrastruktur baru (sulit untuk digabungkan dengan layanan yang sudah ada)
- Kemampuan pencarian pada metadata yang sangat terstruktur mungkin terbatas
Keuntungan:
- Tidak ada kehilangan informasi karena tidak ada terjemahan metadata, hanya ekstraksi
- Format agnostik (sistem dapat menyimpan semua jenis entitas diskrit – pada dasarnya apa pun yang dapat direpresentasikan sebagai file)
- Indeks pencarian dapat sangat disetel, beberapa jenis indeks dapat diterapkan (misalnya domain topikal)
Pendekatan Model
Mirip dengan pendekatan pengindeksan, tetapi selain format denominator umum terendah, objek dapat membuat metadata/data yang lebih rinci tersedia dengan mengiklankan bahwa objek tersebut menunjukkan model konten tertentu. Model konten ini dapat ditentukan oleh komunitas DataONE pusat, atau dapat disetujui oleh sekelompok kecil Node Anggota.
Masalah:
- Registri pusat format data/metadata harus dipelihara
- Beban ada di Node Anggota untuk memastikan mereka mematuhi model konten yang dipublikasikan
Keuntungan:
- Tidak ada kehilangan informasi karena tidak ada terjemahan metadata, hanya ekstraksi
- Format agnostik (sistem dapat menyimpan semua jenis entitas diskrit – pada dasarnya apa pun yang dapat direpresentasikan sebagai file)
- Indeks pencarian dapat sangat disetel, beberapa jenis indeks dapat diterapkan (misalnya domain topikal)
- Akan bekerja bahkan untuk Node Anggota yang hanya memahami format penyebut umum terendah, sementara node yang memahami data/metadata yang lebih kompleks akan mendapat manfaat dari pencarian dan pengelolaan data yang lebih spesifik
- Berbagai komunitas dapat diakomodasi, bahkan jika mereka memiliki standar yang tumpang tindih dan/atau tidak konsisten