Evaluation of Chat-GPT 5.1 for the Detection of Apical Lesions in Panoramic Radiography
Abstract
Objective: The aim of this study was to evaluate the diagnostic performance of ChatGPT-5.1 in determining the presence or absence of apical lesions on panoramic radiographs based on visual input and to analyze the obtained results on a jaw-specific basis.
Materials and Methods: A total of 207 anonymized panoramic radiographs were retrospectively analyzed. In each radiograph, the region in which an apical lesion was present was recorded as “lesion-present,” whereas the contralateral jaw region without an apical lesion on the same radiograph was considered “lesion-absent.” In this context, each lesion-present and lesion-absent region was treated as an independent unit of analysis. All evaluations were independently performed by ChatGPT-5.1 using standardized and anatomically restricted prompts that clearly defined the jaw (maxilla/mandible), side (right/left), and anatomical region. Model outputs were classified as true positive, true negative, false positive, or false negative. Sensitivity, specificity, accuracy, and F1 score were calculated for overall performance and on a jaw-specific basis.
Results: Overall sensitivity, specificity, accuracy, and F1 score of ChatGPT-5.1 were 67.15%, 60.87%, 64.01%, and 65.11%, respectively. Tooth-level detection sensitivity was 67.6%. Mandibular performance was higher than maxillary performance (accuracy: 67.52% vs. 57.14%; tooth-level sensitivity: 69.89% vs. 63.04%).
Concusion: ChatGPT-5.1 demonstrated a moderate level of diagnostic performance in detecting apical lesions on panoramic radiographs. The findings indicate that the model is not suitable for use as a standalone reliable diagnostic tool.
Keywords
Panoramik Radyografide Apikal Lezyonların Tespitinde Chat-GPT 5.1’in Değerlendirilmesi
Öz
Amaç: Bu çalışmanın amacı, görsel girdiye dayanarak panoramik radyografilerde apikal lezyonların varlığını veya yokluğunu belirlemede ChatGPT-5.1’in tanısal performansını değerlendirmek ve elde edilen sonuçları çeneye özgü olarak analiz etmektir.
Gereç ve Yöntem: Toplam 207 adet anonimleştirilmiş panoramik radyografi retrospektif olarak analiz edilmiştir. Her bir radyografide apikal lezyonun mevcut olduğu bölge “lezyonlu” olarak kaydedilirken, aynı radyografi üzerindeki apikal lezyon bulunmayan kontralateral çene bölgesi “lezyonsuz” olarak kabul edilmiştir. Bu kapsamda, her bir lezyonlu ve lezyonsuz bölge birbirinden bağımsız analiz birimleri olarak ele alınmıştır. Tüm değerlendirmeler; çene (maksilla/mandibula), taraf (sağ/sol) ve anatomik bölgeyi açıkça tanımlayan standartlaştırılmış ve anatomik olarak sınırlandırılmış istemler kullanılarak ChatGPT-5.1 tarafından bağımsız olarak gerçekleştirilmiştir. Model çıktıları doğru pozitif, doğru negatif, yanlış pozitif ve yanlış negatif olarak sınıflandırılmıştır. Genel tanısal performans ve çeneye özgü performans için duyarlılık, özgüllük, doğruluk ve F1 skoru hesaplanmıştır.
Bulgular: ChatGPT-5.1’in genel duyarlılık, özgüllük, doğruluk ve F1 skoru sırasıyla %67,15, %60,87, %64,01 ve %65,11 olarak bulunmuştur. Diş düzeyinde lezyon saptama duyarlılığı %67,6’dır. Mandibuladaki performans maksillaya kıyasla daha yüksek bulunmuştur (doğruluk: %67,52’ye karşı %57,14; diş düzeyinde duyarlılık: %69,89’a karşı %63,04).
Sonuç: ChatGPT-5.1, panoramik radyografilerde apikal lezyonların saptanmasında orta düzeyde bir tanısal performans sergilemiştir. Elde edilen bulgular, modelin tek başına güvenilir bir tanı aracı olarak kullanımına uygun olmadığını göstermektedir.
Anahtar Kelimeler
This study was conducted in accordance with the ethical principles outlined in the Declaration of Helsinki and was approved by the Non-Interventional Clinical Research Ethics Committee of Pamukkale University Faculty of Medicine (E-60116787-020-797246).