MODUL 3 — Duplicate Detection (AI-Assisted, Pre-Evaluation)
Modul otomatis yang mengolah laporan hazard sebelum masuk proses evaluasi manual, dengan tujuan mendeteksi laporan duplikat atau sangat mirip yang merepresentasikan kejadian yang sama.
Modul ini bekerja secara bertahap dan linier (Queue → Geo → Lexical → Semantic → Final Cluster), menghasilkan duplicate score, cluster duplikat, reasoning per tahap, dan menyediakan kontrol penuh bagi evaluator (human-in-the-loop) sebelum laporan diteruskan ke evaluasi.
EPIC 3.1 — Duplicate Detection Overview
Definisi Epic
Epic ini menyediakan gambaran menyeluruh tentang kondisi proses duplicate detection secara real-time, termasuk jumlah laporan pada setiap tahap analisis dan status cluster duplicate yang terbentuk.
Feature 3.1.1 — Duplicate Detection Summary Cards
Definisi Feature
Menampilkan kumpulan kartu ringkasan (summary cards) yang menunjukkan status global proses duplicate detection.
Sub-feature: Laporan dalam Antrian
Definisi
Jumlah laporan yang baru masuk dan belum diproses oleh pipeline duplicate detection.
DoD
Sistem menghitung laporan berstatus QUEUE. Angka diperbarui otomatis saat laporan masuk. Sub-feature: Sedang Dianalisis
Definisi
Jumlah laporan yang sedang diproses pada salah satu tahap (Geo / Lexical / Semantic).
DoD
Status berubah real-time sesuai tahap aktif. Sinkron dengan progress pipeline backend. Sub-feature: Potensi Duplikat Terdeteksi
Definisi
Jumlah laporan yang memiliki duplicate score di atas threshold awal.
DoD
Dihitung dari hasil Geo + Lexical + Semantic. Sub-feature: Duplicate Terkonfirmasi
Definisi
Jumlah laporan yang telah dikonfirmasi evaluator sebagai duplikat.
DoD
Hanya laporan dengan status CONFIRMED_DUPLICATE yang dihitung. Sinkron dengan Final Cluster. EPIC 3.2 — Duplicate Detection Queue (TAB 1: Queue)
Definisi Epic
Mengelola daftar laporan yang menunggu masuk pipeline duplicate detection.
Feature 3.2.1 — Queue Table
Definisi Feature
Tabel laporan baru yang belum diproses oleh sistem duplicate detection.
Sub-feature & DoD
Kolom: ID Laporan, Pelapor, Site, Lokasi, Timestamp, Status Status default: Menunggu Analisis Sort & pagination berjalan tanpa reload Feature 3.2.2 — Start Analysis Action
Definisi Feature
Memulai proses duplicate detection untuk laporan terpilih.
DoD
Tombol “Mulai Analisis” aktif hanya untuk status QUEUE Status laporan berubah menjadi PROCESSING Laporan otomatis masuk ke tahap Geo EPIC 3.3 — Geo-Based Duplicate Detection (TAB 2: Geo)
Definisi Epic
Mendeteksi potensi duplikat berdasarkan kedekatan lokasi fisik kejadian.
Feature 3.3.1 — Geo Clustering Engine
Definisi Feature
Mengelompokkan laporan berdasarkan site, lokasi, detail lokasi, dan koordinat.
DoD
Menggunakan radius toleransi lokasi Site berbeda tidak boleh masuk cluster yang sama Geo cluster ID dihasilkan otomatis Feature 3.3.2 — Geo Cluster View
Definisi Feature
Menampilkan cluster laporan berdasarkan lokasi.
Sub-feature & DoD
Menampilkan Site, Lokasi, Detail Lokasi, Lat/Long Menampilkan Geo Similarity Score Tidak menampilkan deskripsi teks atau gambar Feature 3.3.3 — Geo Decision Controls
DoD
Aksi: “Lanjut ke Lexical” Aksi: “Exclude dari Geo Cluster” Semua keputusan tercatat di audit log EPIC 3.4 — Lexical Duplicate Detection (TAB 3: Lexical)
Definisi Epic
Menganalisis kemiripan literal teks antar laporan yang telah lolos tahap Geo.
Feature 3.4.1 — Lexical Similarity Analysis
Definisi Feature
Menghitung kesamaan kata dan frasa antar laporan.
Input
DoD
Menampilkan matched phrases Menghasilkan lexical similarity score Feature 3.4.2 — Geo Context Display (Read-only)
Definisi Feature
Menampilkan konteks lokasi dari tahap Geo sebagai referensi.
DoD
Geo cluster ID & score tampil Ditandai sebagai “Konteks Tahap Sebelumnya” Feature 3.4.3 — Lexical Decision Controls
DoD
Aksi: “Lanjut ke Semantic” Aksi: “Tandai Tidak Mirip Secara Teks” Flag lexical disimpan (Strong / Weak) EPIC 3.5 — Semantic Duplicate Detection (TAB 4: Semantic)
Definisi Epic
Menentukan apakah laporan benar-benar menggambarkan kejadian yang sama, menggunakan makna konteks dan bukti visual.
Feature 3.5.1 — Visual & Context Inspection (VLM)
Definisi Feature
Analisis gambar untuk mendeteksi objek, kondisi, dan konteks kejadian.
DoD
Objek dan kondisi ditampilkan sebagai chips Jika gambar tidak tersedia, tampil banner informasi Feature 3.5.2 — Semantic Reasoning Engine
Definisi Feature
Menjelaskan alasan kesamaan kejadian secara naratif.
DoD
Menampilkan semantic similarity score Menampilkan reasoning bullet Confidence level: High / Medium / Low Feature 3.5.3 — Context Accordion (Geo & Lexical)
DoD
Geo & Lexical tampil sebagai accordion Tidak mengganggu fokus semantic Feature 3.5.4 — Semantic Decision Controls
DoD
Aksi: “Kirim ke Final Duplicate Cluster” Aksi: “Tandai Bukan Kejadian Sama” EPIC 3.6 — Final Duplicate Cluster Management (TAB 5: Final)
Definisi Epic
Mengelola laporan yang telah ditetapkan sebagai duplicate atau potential duplicate.
Feature 3.6.1 — Duplicate Cluster View
Definisi Feature
Menampilkan cluster laporan duplikat.
DoD
Representative report ditandai jelas Daftar member report lengkap Feature 3.6.2 — Final Decision Actions
DoD
Feature 3.6.3 — Audit Log & Traceability
DoD
Mencatat user, waktu, dan aksi Menyimpan status sebelum & sesudah EPIC 3.7 — Auto-Sync to Evaluation
Definisi Epic
Mengatur perpindahan laporan dari modul Duplicate Detection ke modul Evaluation.
Feature 3.7.1 — Status Transition Engine
DoD
Jika status = Non-Duplicate → masuk Evaluation Queue Jika Confirmed Duplicate → tidak masuk evaluasi Feature 3.7.2 — Backend Tagging
DoD
evaluation_status auto-set sesuai hasil Outcome Modul
Evaluator tidak membuang waktu pada laporan ganda Keputusan duplicate jelas, terjelaskan, dan dapat diaudit Data evaluasi lebih bersih & akurat Pipeline AI terlihat dan bisa dipercaya Kalau mau, next aku bisa: