Seit dem Aufkommen von Large Language Models wie ChatGPT hat die Bedeutung von künstlicher Intelligenz (KI) signifikant zugenommen. Im Bereich der orthopädischen Bildgebung werden bereits KI-Modelle eingesetzt, um diagnostische Aufgaben zu übernehmen, etwa bei der Frakturerkennung oder der Vermessung und Quantifizierung radiologischer Parameter [1 – 6].
Nach Sportverletzungen kann eine operative Versorgung notwendig sein, die präzise vermessene Parameter auf Röntgenbildern erfordert. Beispielsweise bei Meniskusverletzungen oder Knorpelschäden ist die radiologische Beurteilung der Beinachse relevant und sollte gegebenenfalls berücksichtigt und korrigiert werden [7, 8]. Trotz der technologischen Fortschritte werden Röntgenbilder im klinischen Alltag weiterhin manuell von Ärzten beurteilt, vermessen und in narrativer Form beschrieben. Diese traditionelle Methode ist jedoch subjektiv und kann zu erheblichen Unterschieden in den Ergebnissen führen.
Interrater und Intrarater Variabilität
Die manuelle Bewertung und Vermessung von Röntgenbildern sind von verschiedenen Einflussfaktoren abhängig, wie Stress, Ermüdung und Unachtsamkeit im klinischen Alltag. Die intrarater Variabilität bezeichnet Unterschiede zwischen Bewertungen desselben Befunders, während die interrater Variabilität Unterschiede zwischen verschiedenen Befundern beschreibt. Trotz einer Datenmenge von fünf Megabyte in einem DICOM Röntgenbild werden die Bilder immer noch subjektiv auf einem Bildschirm bewertet, ähnlich wie vor hundert Jahren. Die Genauigkeit von manuellen Auswertungen zeigt bereits in früheren Studien eine gewisse Variabilität [9 –11]. Im Gegensatz dazu ist ein auf KI basierender Algorithmus unabhängig von der Erfahrung oder der Tagesverfassung eines Befunders. Die Software kann die volle Dateninformation nutzen und beispielsweise Kontrastunterschiede auf den Pixel genau beurteilen, was zu präzisen und reproduzierbaren Ergebnissen führt.
Künstliche Intelligenz, Machine Learning und Deep Learning
KI hat sich in den letzten Jahren stark weiterentwickelt, insbesondere durch den Fortschritt in der Rechenleistung und die Verfügbarkeit umfangreicher Datensätze. Dies hat die Entstehung von Untergruppen wie Machine Learning (ML) ermöglicht (Abb. 1). ML-Algorithmen können Muster erkennen und Probleme ohne explizite Programmierung lösen. Deep Learning (DL), eine Weiterentwicklung von ML, nutzt neuronale Netzwerke zur Lösung komplexer Aufgaben wie Bilderkennung, insbesondere in der medizinischen Bildgebung zur Erkennung von Anomalien auf Röntgenbildern. Die Qualität und Vielfalt der Trainingsdaten sind entscheidend für die Entwicklung zuverlässiger Modelle, da Trainingsdaten von niedriger Qualität und Vielfalt zu Verzerrungen, geringer Robustheit gegenüber neuen Daten und „Overfitting“ führen können, was die Genauigkeit und Zuverlässigkeit der Modelle einschränkt. Overfitting entsteht, wenn ein Modell zu stark auf Trainingsdaten fokussiert ist und dadurch bei neuen Daten schlecht funktioniert. Daher sind hochwertige Trainingsdaten entscheidend, um eine breite Palette von Szenarien genau zu verarbeiten.
Interne vs. Externe Validierung
Die Entwicklung eines DL-Algorithmus erfordert Training und Validierung zur Bewertung der Genauigkeit. Validierung kann intern oder extern erfolgen. Interne Validierung teilt denselben Datensatz in Trainings- und Validierungsdaten auf, während externe Validierung separate Datensätze verwendet. Interne Validierung ist einfacher, erlaubt jedoch keine Aussage über die Anwendbarkeit auf andere Datensätze und kann zu Bias führen. Ein Beispiel dafür ist die Untersuchung von Zech et al., die zeigte, dass das Wort „portable“ als entscheidender Faktor für die Diagnose einer Lungenentzündung auf Thorax-Röntgenbildern fungierte, obwohl es nur als Kennzeichnung für das tragbare Röntgengerät auf den Bildern erschien [12]. Externe Validierung hingegen verwendet einen zusätzlichen Datensatz (aus einer anderen Einrichtung) und ist aufwändiger, aber verringert die Nachteile der internen Validierung. Oft wird eine externe Validierung für die Zulassung als Medizinprodukt gefordert.
Muskuloskelettale Erkrankungen und Bildgebende Diagnostik
Geschätzte 25 % aller Patienten, die in der Hausarzt-Praxis vorstellig werden, klagen über muskuloskelettale (MSK) Beschwerden, viele davon verbunden mit sportlicher Aktivität [13]. Mit der wachsenden Anzahl an Röntgenbildern, die befundet werden müssen, stehen befundende Ärzte unter erhöhtem Druck, eine hohe Qualität aufrecht zu erhalten. Die geschätzte radiologische Fehlerrate liegt bei 4 – 30 %. Auf eine Milliarde Röntgenbilder im Jahr würden demzufolge etwa 40 Millionen radiologische Bilder fehlerhaft diagnostiziert [14, 15]. Die Implementierung von KI in die MSK-Bildgebung kann aktuell so verstanden werden, dass bestimmte, klar definierte Aufgaben, die normalerweise von Radiologen oder Orthopäden durchgeführt werden, übernommen werden können. Dies beinhaltet Aufgaben, wie die Erkennung und Vermessung von anatomischen Strukturen, Frakturerkennung sowie komplexere Aufgaben, wie die Beurteilung des anatomischen Knochenalters oder der Klassifizierung von unterschiedlichen Stadien der Arthrose.
Automatisierte Vermessung der Beinachse
Eine Abweichung der Beinachse ist assoziiert mit einem schlechteren Outcome bei Knorpel- und Meniskuseingriffen sowie erhöhtem Risiko der Kniegelenksarthrose. Die korrekte Vermessung und Beurteilung der Beinachse ist z. B. bei Umstellungsosteotomien wichtiger. Das American College of Radiology Data Science Institute erkannte die automatische Vermessung von Ganzbein-Röntgenbildern als „AI Use Case“ an, da gezeigt werden konnte, dass die Reproduzierbarkeit durch KI verbessert und eine hohe Genauigkeit erzielt werden kann (Abb. 2) [5, 16, 17].
IB Lab HIPPO – Vermessung von Hüfte und Becken
Das HIPPO-Modul dient zur Messung der Hüftpositionierung und der Beckenmorphologie, hinsichtlich der Vermessung der gängigsten Winkel und Messdistanzen auf einem Röntgenbild des Beckens und ist für erwachsene Menschen zwischen 18 und 95 Jahren mit Hüftschmerzen vorgesehen, bei Verdacht auf angeborene Erkrankungen, femoral-acetabuläre Impingement oder Arthrose der Hüfte. Mithilfe von Hüftwinkelmessungen können Ärzte geeignete Maßnahmen und Therapien für frühe Anzeichen einer Hüfterkrankung, einschließlich Arthritis und Dysplasie, ergreifen. HIPPO führt objektive, standardisierte Messungen der wichtigsten Hüftwinkel auf digitalen Röntgenbildern durch. Dazu gehören die CCD- und LCE-Winkel sowie der Tönnis-Winkel (Acetabular Index), der Sharp-Winkel und der Femoral Extrusion Index. Bei bilateralen stehenden AP-Hüftröntgenaufnahmen unterstützt HIPPO den medizinischen Experten bei der Erkennung des Vorhandenseins oder Nichtvorhandenseins von Beinlängenunterschieden. Die Messwerte sind präzise und die Lese- und Berichtszeit kann bei Verwendung von HIPPO von 3,5 Minuten auf 30 Sekunden pro Bild reduziert werden. Femoroacetabulares Impingement und Hüftdysplasie sind die beiden Hauptursachen für Hüftdegeneration, wobei sie im Endstadium zum Hüftgelenkersatz führen.
Automatisierte Vermessung des Cobb Winkels
Sport wird in den Leitlinien der International Scientific Society on Scoliosis Orthopeadic and Rehabilitation Treatment aufgrund des positiven psychologischen, neuromuskulären und generell gesundheitlichen Effekts bei Skoliose empfohlen. Die Inzidenz der adoleszenten idiopathischen Skoliose wird auf 2 – 3 % geschätzt, wobei sie durch einen Cobb-Winkel von > 10° definiert ist [18]. Da ab einem Cobb Winkel von < 50° das Risiko einer Progression der Skoliose erhöhte ist und operative Versorgung indiziert sein kann, sollte dieser möglichst genau bestimmt werden [19]. Manuelle Vermessungen des Cobb Winkels zeigten in der Vergangenheit eine Ungenauigkeit von bis zu 8° [9].
Die automatisierte Vermessung durch KI-Algorithmen (Abb. 4) zeigt großes Potenzial, diese Messungenauigkeit zu reduzieren.
Potenzial der KI für den Befundablauf in der Sportmedizin
Wie eingangs erwähnt, wird die Befundung von Röntgenbildern nach wie vor manuell durchgeführt. Mess- bzw. Befundergebnisse erfordern ein hohes Maß an Genauigkeit, welche für die Erkennung von Erkrankungen und der Zuweisung adäquater Therapien entscheidend sind. Aktuelle Abläufe führen bei der Befundung teilweise zu Übereinstimmungsraten von nur 30 % [20]. KI kann die Genauigkeit der präoperativen Planung sportmedizinischer Eingriffe erhöhen und damit zu besseren postoperativen Ergebnissen führen. Durch eine verbesserte Standardisierung können zudem robustere Daten für zukünftige Studien generiert werden, wodurch Normparameter neu definiert und Operationsindikationen entsprechend adaptiert werden können. KI-Software unterstützt Ärzte im klinischen Alltag, indem sie zeitaufwändige Aufgaben reduziert und die Arbeitslast verringert, was die Qualität verbessern kann. Dennoch erfordern die Ergebnisse der verfügbaren KI-Tools derzeit eine menschliche Validierung, um angemessen genutzt werden zu können.
Bemerkung
Während der Erstellung dieser Arbeit verwendeten die Autoren ChatGPT 3.5 von OpenAI, um den Lesefluss
zu verbessern und Wortsynonyme zu finden. Die Autoren überprüften den Inhalt anschließend und haben diesen entsprechend überarbeitet.
Weitere Autoren dieses Artikels:
DR. MED. KENNETH CHEN /
UNIVERSITÄT FÜR WEITERBILDUNG KREMS,
ABTEILUNG FÜR ORTHOPÄDIE UND TRAUMATOLOGIE,
LANDESKLINIKUM WAIDHOFEN/YBBS
DR. DR. MED. RICHARD LJUHAR /
IMAGEBIOPSY LAB, RESEARCH & AI DEVELOPMENT ABTEILUNG, WIEN
Lesetipp der Redaktion
Expert-Talk mit PD Dr. Christian Sturm zu KI und Robotik in der Medizin (sportärztezeitung 01/24)
Literatur
[1] R. Lindsey, A. Daluiski, S. Chopra, A. Lachapelle, M. Mozer, S. Sicular, D. Hanel, M. Gardner, A. Gupta, R. Hotchkiss, H. Potter, Deep neural network improves fracture detection by clinicians, Proceedings of the National Academy of Sciences of the United States of America 115 (2018) 11591–11596. https://doi.org/10.1073/pnas.1806905115.
[2] P.H.S. Kalmet, S. Sanduleanu, S. Primakov, G. Wu, A. Jochems, T. Refaee, A. Ibrahim, L.V. Hulst, P. Lambin, M. Poeze, Deep learning in fracture detection: a narrative review, Acta orthopaedica 91 (2020) 215–220. https://doi.org/10.1080/17453674.2019.1711323.
[3] K. Murata, K. Endo, T. Aihara, H. Suzuki, Y. Sawaji, Y. Matsuoka, H. Nishimura, T. Takamatsu, T. Konishi, A. Maekawa, H. Yamauchi, K. Kanazawa, H. Endo, H. Tsuji, S. Inoue, N. Fukushima, H. Kikuchi, H. Sato, K. Yamamoto, Artificial intelligence for the detection of vertebral fractures on plain spinal radiography, Scientific reports 10 (2020) 20031. https://doi.org/10.1038/s41598-020-76866-w.
[4] J. Schock, D. Truhn, D.B. Abrar, D. Merhof, S. Conrad, M. Post, F. Mittelstrass, C. Kuhl, S. Nebelung, Automated Analysis of Alignment in Long-Leg Radiographs by Using a Fully Automated Support System Based on Artificial Intelligence, Radiology. Artificial intelligence 3 (2021) e200198. https://doi.org/10.1148/ryai.2020200198.
[5] C. Stotter, T. Klestil, K. Chen, A. Hummer, C. Salzlechner, P. Angele, S. Nehrer, Artificial intelligence-based analyses of varus leg alignment and after high tibial osteotomy show high accuracy and reproducibility, Knee surgery, sports traumatology, arthroscopy official journal of the ESSKA 31 (2023) 5885–5895. https://doi.org/10.1007/s00167-023-07644-0.
[6] C. Stotter, T. Klestil, C. Röder, P. Reuter, K. Chen, R. Emprechtinger, A. Hummer, C. Salzlechner, M. DiFranco, S. Nehrer, Deep Learning for Fully Automated Radiographic Measurements of the Pelvis and Hip, Diagnostics (Basel, Switzerland) 13 (2023). https://doi.org/10.3390/diagnostics13030497.
[7] G. Bode, H. Schmal, J.M. Pestka, P. Ogon, N.P. Südkamp, P. Niemeyer, A non-randomized controlled clinical trial on autologous chondrocyte implantation (ACI) in cartilage defects of the medial femoral condyle with or without high tibial osteotomy in patients with varus deformity of less than 5°, Archives of orthopaedic and trauma surgery 133 (2013) 43–49. https://doi.org/10.1007/s00402-012-1637-x.
[8] K.S. Chung, J.K. Ha, H.J. Ra, J.G. Kim, Preoperative varus alignment and postoperative meniscus extrusion are the main long-term predictive factors of clinical failure of meniscal root repair, Knee surgery, sports traumatology, arthroscopy official journal of the ESSKA 29 (2021) 4122–4130. https://doi.org/10.1007/s00167-020-06405-7.
[9] M. Gstoettner, K. Sekyra, N. Walochnik, P. Winter, R. Wachter, C.M. Bach, Inter- and intraobserver reliability assessment of the Cobb angle: manual versus digital measurement tools, European spine journal official publication of the European Spine Society, the European Spinal Deformity Society, and the European Section of the Cervical Spine Research Society 16 (2007) 1587–1592. https://doi.org/10.1007/s00586-007-0401-3.
[10] C.A. Engh, C.J. Sychterz, A.M. Young, D.C. Pollock, S.D. Toomey, C.A. Engh, Interobserver and intraobserver variability in radiographic assessment of osteolysis, The Journal of arthroplasty 17 (2002) 752–759. https://doi.org/10.1054/arth.2002.33554.
[11] R.W. Wright, Osteoarthritis Classification Scales: Interobserver Reliability and Arthroscopic Correlation, The Journal of bone and joint surgery. American volume 96 (2014) 1145–1151. https://doi.org/10.2106/JBJS.M.00929.
[12] J.R. Zech, M.A. Badgeley, M. Liu, A.B. Costa, J.J. Titano, E.K. Oermann, Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: A cross-sectional study, PLoS medicine 15 (2018) e1002683. https://doi.org/10.1371/journal.pmed.1002683.
[13] F. Vanhoenacker, M. Maas, J.L. Gielen, Imaging of orthopedic sports injuries, Springer, Berlin, New York, 2007.
[14] P. Ajmera, A. Kharat, R. Botchu, H. Gupta, V. Kulkarni, Real-world analysis of artificial intelligence in musculoskeletal trauma, Journal of clinical orthopaedics and trauma 22 (2021) 101573. https://doi.org/10.1016/j.jcot.2021.101573.
[15] M.A. Bruno, E.A. Walker, H.H. Abujudeh, Understanding and Confronting Our Mistakes: The Epidemiology of Error in Radiology and Strategies for Error Reduction, Radiographics a review publication of the Radiological Society of North America, Inc 35 (2015) 1668–1676. https://doi.org/10.1148/rg.2015150023.
[16] J. Schock, D. Truhn, D.B. Abrar, D. Merhof, S. Conrad, M. Post, F. Mittelstrass, C. Kuhl, S. Nebelung, Automated Analysis of Alignment in Long-Leg Radiographs by Using a Fully Automated Support System Based on Artificial Intelligence, Radiology. Artificial intelligence 3 (2021) e200198. https://doi.org/10.1148/ryai.2020200198.
[17] S. Simon, G.M. Schwarz, A. Aichmair, B.J.H. Frank, A. Hummer, M.D. DiFranco, M. Dominkus, J.G. Hofstaetter, Fully automated deep learning for knee alignment assessment in lower extremity radiographs: a cross-sectional diagnostic study, Skeletal radiology 51 (2022) 1249–1259. https://doi.org/10.1007/s00256-021-03948-9.
[18] S. Negrini, S. Donzelli, A.G. Aulisa, D. Czaprowski, S. Schreiber, J.C. de Mauroy, H. Diers, T.B. Grivas, P. Knott, T. Kotwicki, A. Lebel, C. Marti, T. Maruyama, J. O’Brien, N. Price, E. Parent, M. Rigo, M. Romano, L. Stikeleather, J. Wynne, F. Zaina, 2016 SOSORT guidelines: orthopaedic and rehabilitation treatment of idiopathic scoliosis during growth, Scoliosis and spinal disorders 13 (2018) 3. https://doi.org/10.1186/s13013-017-0145-8.
[19] S.L. Weinstein, I.V. Ponseti, Curve progression in idiopathic scoliosis, The Journal of bone and joint surgery. American volume 65 (1983) 447–455.
[20] N. Lidströmer, H. Ashrafian (Eds.), Artificial Intelligence in Medicine, Springer International Publishing; Imprint Springer, Cham, 2020.
Autoren
ist Facharzt für Orthopädie und orthopädische Chirurgie. Er leitet das Zentrum für Regenerative Medizin und das Department für Gesundheitswissenschaften, Medizin, Forschung an der Donau Universität Krems, samt Professur für Tissue
Engineering. Daneben ist er am Uni-Klinikum Krems an der orthopädischen Abteilung, mit Schwerpunkt Sportorthopädie und Knorpelchirurgie tätig. Seit 1992 in der GOTS, war er u.a. bereits deren Präsident und Vizepräsident Österreichs und ist 2025 Kongresspräsident des GOTS-Kongresses in Krems sowie im Vorstand der ÖGSMP. Außerdem ist er wiss. Beirat der sportärztezeitung.