Skip to content

Untitled page

MODUL 3 — Duplicate Detection (AI-Assisted, Pre-Evaluation)

Modul otomatis yang mengolah laporan hazard sebelum masuk proses evaluasi manual, dengan tujuan mendeteksi laporan duplikat atau sangat mirip yang merepresentasikan kejadian yang sama. Modul ini bekerja secara bertahap dan linier (Queue → Geo → Lexical → Semantic → Final Cluster), menghasilkan duplicate score, cluster duplikat, reasoning per tahap, dan menyediakan kontrol penuh bagi evaluator (human-in-the-loop) sebelum laporan diteruskan ke evaluasi.

EPIC 3.1 — Duplicate Detection Overview

Definisi Epic

Epic ini menyediakan gambaran menyeluruh tentang kondisi proses duplicate detection secara real-time, termasuk jumlah laporan pada setiap tahap analisis dan status cluster duplicate yang terbentuk.

Feature 3.1.1 — Duplicate Detection Summary Cards

Definisi Feature
Menampilkan kumpulan kartu ringkasan (summary cards) yang menunjukkan status global proses duplicate detection.
Sub-feature: Laporan dalam Antrian
Definisi Jumlah laporan yang baru masuk dan belum diproses oleh pipeline duplicate detection.
DoD
Sistem menghitung laporan berstatus QUEUE.
Angka diperbarui otomatis saat laporan masuk.
Sub-feature: Sedang Dianalisis
Definisi Jumlah laporan yang sedang diproses pada salah satu tahap (Geo / Lexical / Semantic).
DoD
Status berubah real-time sesuai tahap aktif.
Sinkron dengan progress pipeline backend.
Sub-feature: Potensi Duplikat Terdeteksi
Definisi Jumlah laporan yang memiliki duplicate score di atas threshold awal.
DoD
Threshold configurable.
Dihitung dari hasil Geo + Lexical + Semantic.
Sub-feature: Duplicate Terkonfirmasi
Definisi Jumlah laporan yang telah dikonfirmasi evaluator sebagai duplikat.
DoD
Hanya laporan dengan status CONFIRMED_DUPLICATE yang dihitung.
Sinkron dengan Final Cluster.

EPIC 3.2 — Duplicate Detection Queue (TAB 1: Queue)

Definisi Epic

Mengelola daftar laporan yang menunggu masuk pipeline duplicate detection.

Feature 3.2.1 — Queue Table

Definisi Feature
Tabel laporan baru yang belum diproses oleh sistem duplicate detection.
Sub-feature & DoD
Kolom: ID Laporan, Pelapor, Site, Lokasi, Timestamp, Status
Status default: Menunggu Analisis
Sort & pagination berjalan tanpa reload

Feature 3.2.2 — Start Analysis Action

Definisi Feature
Memulai proses duplicate detection untuk laporan terpilih.
DoD
Tombol “Mulai Analisis” aktif hanya untuk status QUEUE
Status laporan berubah menjadi PROCESSING
Laporan otomatis masuk ke tahap Geo

EPIC 3.3 — Geo-Based Duplicate Detection (TAB 2: Geo)

Definisi Epic

Mendeteksi potensi duplikat berdasarkan kedekatan lokasi fisik kejadian.

Feature 3.3.1 — Geo Clustering Engine

Definisi Feature
Mengelompokkan laporan berdasarkan site, lokasi, detail lokasi, dan koordinat.
DoD
Menggunakan radius toleransi lokasi
Site berbeda tidak boleh masuk cluster yang sama
Geo cluster ID dihasilkan otomatis

Feature 3.3.2 — Geo Cluster View

Definisi Feature
Menampilkan cluster laporan berdasarkan lokasi.
Sub-feature & DoD
Menampilkan Site, Lokasi, Detail Lokasi, Lat/Long
Menampilkan Geo Similarity Score
Tidak menampilkan deskripsi teks atau gambar

Feature 3.3.3 — Geo Decision Controls

DoD
Aksi: “Lanjut ke Lexical”
Aksi: “Exclude dari Geo Cluster”
Semua keputusan tercatat di audit log

EPIC 3.4 — Lexical Duplicate Detection (TAB 3: Lexical)

Definisi Epic

Menganalisis kemiripan literal teks antar laporan yang telah lolos tahap Geo.

Feature 3.4.1 — Lexical Similarity Analysis

Definisi Feature
Menghitung kesamaan kata dan frasa antar laporan.
Input
Ketidaksesuaian
Sub-ketidaksesuaian
Quick Action
Deskripsi Temuan
DoD
Highlight kata identik
Menampilkan matched phrases
Menghasilkan lexical similarity score

Feature 3.4.2 — Geo Context Display (Read-only)

Definisi Feature
Menampilkan konteks lokasi dari tahap Geo sebagai referensi.
DoD
Geo cluster ID & score tampil
Field tidak dapat diedit
Ditandai sebagai “Konteks Tahap Sebelumnya”

Feature 3.4.3 — Lexical Decision Controls

DoD
Aksi: “Lanjut ke Semantic”
Aksi: “Tandai Tidak Mirip Secara Teks”
Flag lexical disimpan (Strong / Weak)

EPIC 3.5 — Semantic Duplicate Detection (TAB 4: Semantic)

Definisi Epic

Menentukan apakah laporan benar-benar menggambarkan kejadian yang sama, menggunakan makna konteks dan bukti visual.

Feature 3.5.1 — Visual & Context Inspection (VLM)

Definisi Feature
Analisis gambar untuk mendeteksi objek, kondisi, dan konteks kejadian.
DoD
Objek dan kondisi ditampilkan sebagai chips
Jika gambar tidak tersedia, tampil banner informasi

Feature 3.5.2 — Semantic Reasoning Engine

Definisi Feature
Menjelaskan alasan kesamaan kejadian secara naratif.
DoD
Menampilkan semantic similarity score
Menampilkan reasoning bullet
Confidence level: High / Medium / Low

Feature 3.5.3 — Context Accordion (Geo & Lexical)

DoD
Geo & Lexical tampil sebagai accordion
Bersifat read-only
Tidak mengganggu fokus semantic

Feature 3.5.4 — Semantic Decision Controls

DoD
Aksi: “Kirim ke Final Duplicate Cluster”
Aksi: “Tandai Bukan Kejadian Sama”
Semua keputusan tercatat

EPIC 3.6 — Final Duplicate Cluster Management (TAB 5: Final)

Definisi Epic

Mengelola laporan yang telah ditetapkan sebagai duplicate atau potential duplicate.

Feature 3.6.1 — Duplicate Cluster View

Definisi Feature
Menampilkan cluster laporan duplikat.
DoD
Cluster ID unik
Representative report ditandai jelas
Daftar member report lengkap

Feature 3.6.2 — Final Decision Actions

DoD
Confirm Duplicate
Mark Non-Duplicate
Merge Cluster
Split Cluster
Change Representative

Feature 3.6.3 — Audit Log & Traceability

DoD
Mencatat user, waktu, dan aksi
Menyimpan status sebelum & sesudah
Dapat diakses supervisor

EPIC 3.7 — Auto-Sync to Evaluation

Definisi Epic

Mengatur perpindahan laporan dari modul Duplicate Detection ke modul Evaluation.

Feature 3.7.1 — Status Transition Engine

DoD
Jika status = Non-Duplicate → masuk Evaluation Queue
Jika Confirmed Duplicate → tidak masuk evaluasi

Feature 3.7.2 — Backend Tagging

DoD
duplicate_status:
queue
processing
potential_duplicate
confirmed_duplicate
non_duplicate
evaluation_status auto-set sesuai hasil

Outcome Modul

Evaluator tidak membuang waktu pada laporan ganda
Keputusan duplicate jelas, terjelaskan, dan dapat diaudit
Data evaluasi lebih bersih & akurat
Pipeline AI terlihat dan bisa dipercaya
Kalau mau, next aku bisa:
Want to print your doc?
This is not the way.
Try clicking the ··· in the right corner or using a keyboard shortcut (
CtrlP
) instead.