GİRİŞ ve AMAÇ: Bu çalışma, bir büyük dil modeli olan ChatGPT-4’ün, göğüs cerrahisi sorularına 5. sınıf tıp öğrencileri ile karşılaştırmalı olarak yanıt verme performansını değerlendirmeyi amaçlamaktadır. Çalışmanın hedefi, ChatGPT-4’ün tıp eğitiminde bir eğitim aracı olarak potansiyelini değerlendirmektir.
YÖNTEM ve GEREÇLER: Çalışmada, 10 beşinci sınıf tıp öğrencisi ve ChatGPT-4’ün yer aldığı retrospektif karşılaştırmalı bir analiz yapıldı. Her katılımcı, göğüs cerrahisiyle ilgili 40 çoktan seçmeli soruyu yanıtladı. Öğrencilerin puanları, ChatGPT-4 tarafından üretilen puanlarla karşılaştırıldı. Performans farklarının anlamlılığını belirlemek için bağımsız örneklem t-testi kullanılarak istatistiksel analiz yapıldı.
BULGULAR: Öğrencilerin puanları %80 ile %97.5 arasında değişmiş ve ortalama puan %88.25 (SD=5.63) olarak hesaplanmıştır. ChatGPT-4, aynı soru setinde %95 puan almıştır. T-testi sonuçları, öğrencilerin puanları ile ChatGPT-4’ün puanı arasında istatistiksel olarak anlamlı bir fark olduğunu göstermiştir (t=-3.98, p=0.00088).
TARTIŞMA ve SONUÇ: Çalışma, ChatGPT-4’ün göğüs cerrahisi sorularına doğru yanıtlar verebildiğini ve 5. sınıf tıp öğrencilerinin performansını aştığını göstermiştir. Bu durum, büyük dil modellerinin tıp eğitiminde değerli eğitim araçları olarak potansiyelini ortaya koymaktadır. Ancak, modelin farklı tıbbi disiplinler ve soru türleri üzerindeki performansını değerlendirmek için daha fazla araştırmaya ihtiyaç vardır.
INTRODUCTION: This study aimed to evaluate the performance of ChatGPT-4, a large language model, in answering thoracic surgery questions compared to 5th-year medical students. The goal was to assess the potential of ChatGPT-4 as an educational tool in medical training.
METHODS: A retrospective comparative analysis was conducted involving 10 fifth-year medical students and ChatGPT-4. Each participant answered 40 multiple-choice questions related to thoracic surgery. The students’ scores were compared to the scores generated by ChatGPT-4. Statistical analysis was performed using an independent sample t-test to determine the significance of the differences in performance.
RESULTS: The students’ scores ranged from 80% to 97.5%, with an average score of 88.25% (SD=5.63). ChatGPT-4 scored 95% on the same set of questions. The t-test results indicated a statistically significant difference between the students’ scores and ChatGPT-4’s score (t=-3.98, p=0.00088).
DISCUSSION AND CONCLUSION: The study demonstrated that ChatGPT-4 can provide accurate answers to thoracic surgery questions, surpassing the performance of 5th-year medical students. This indicates the potential of large language models as valuable educational tools in medical training. However, further research is needed to evaluate the model’s performance across different medical disciplines and question types.