Vorhersage des Erfolgs von radiozephalen arteriovenösen Fisteln mit maschinellem Lernen

Spread the love

Datenquelle

Wir führten eine Post-hoc-Analyse gepoolter Daten auf Patientenebene aus den internationalen, multizentrischen, randomisierten, kontrollierten Phase-III-Studien PATENCY-1 und PATENCY-2 von 2014–2019 durch (Studienregistrierung: ClinicalTrials.gov; NCT02110901, Juli 2014; und NCT02414841, August 2015). . Diese Studien verfolgten prospektiv die klinischen Ergebnisse für bis zu 3 Jahre nach der Schaffung eines neuen radiozephalen AVF in 31 bzw. 39 Zentren in den Vereinigten Staaten und Kanada. Die detaillierte Methodik und die Ergebnisse der Primärstudien wurden zuvor veröffentlicht14,15,16.

Alle Patienten mit fortgeschrittener chronischer Nierenerkrankung, die sich einer radiozephalen AVF-Erzeugung unterzogen, kamen für die Aufnahme in die Studien in Frage. Patienten mit einer Lebenserwartung von <6 Monaten, aktiver Malignität oder vorheriger Behandlung mit dem Studienmedikament (Vonapanitase, eine rekombinante humane Elastase) wurden von den Studien ausgeschlossen. Letztendlich wurde davon ausgegangen, dass das Studienmedikament Vonapanitase nach einem Jahr nur begrenzte Auswirkungen auf die relevanten klinischen Ergebnisse hatte, und weitere Untersuchungen des Medikaments für diesen Anwendungsfall wurden eingestellt. Die Teilnehmer wurden prospektiv für bis zu drei Jahre in einem vordefinierten Register klinischer Ergebnisse nachbeobachtet. Die Rekrutierung begann im Juli 2014 und die Nachverfolgung des Registers endete im April 2019. Zu den wichtigsten Datenpunkten, die während der Studie und der anschließenden Nachverfolgung des Registers erhoben wurden, gehörten Ausgangs-Komorbiditäten zum Zeitpunkt der Studieneinschreibung, anatomische und Fall-Mix-Merkmale, nachfolgende chirurgische oder endovaskuläre Eingriffe und postoperative Ultraschallmessungen.

Routinemäßige Duplex-Ultraschalluntersuchungen (US) wurden 4 bis 6 Wochen und 12 Wochen nach der AVF-Erzeugung durchgeführt. Der Lumendurchmesser der Ausflussvene wurde zweimal an drei vorbestimmten Stellen im Unterarm (3 cm proximal zur AVF-Anastomose, Mitte des Unterarms und unmittelbar unterhalb der Fossa antecubitalis) gemessen und gemittelt. Das Flussvolumen wurde aus drei getrennten Messungen an der gleichen Stelle in der Kopfvene 5 cm proximal zur AVF-Anastomose geschätzt. Stenose wurde als Vorhandensein oder Nichtvorhandensein einer Lumenverengung von ≥ 50 % an jedem Punkt entlang des gesamten Zugangs dichotomisiert. Die Zugangstiefe wurde nicht bewertet. Alle Ultraschalluntersuchungen wurden von einem verblindeten Kernlabor (VasCore; Boston, MA) ausgewertet. Die Methoden wurden in Übereinstimmung mit den relevanten Richtlinien und Vorschriften durchgeführt, einschließlich des Verzichts auf Einwilligung nach Aufklärung, und vom Institutional Review Board des Mass General Brigham Human Research Committee für die Verwendung zuvor gesammelter Studiendaten von PATENCY-1 und PATENCY-2 für die Post-hoc-Analyse genehmigt .

Vorhersagemodelle

Wir versuchten, auf bestehenden schwellenwertbasierten Ultraschallkriterien aufzubauen und diese zu verfeinern, um die AVF-Reifung und Eignung für den Einsatz vorherzusagen. Um in die Vorhersagemodellierung aufgenommen zu werden, mussten die Patienten während der Studiennachbeobachtung (z. B. bei Hämodialyse) ein Risiko für die Verwendung von AVF aufweisen und über vollständige 4- bis 6-wöchige Ultraschalldaten verfügen. Alle Patienten mit einer chronischen Nierenerkrankung vor der Dialyse, die während der Nachbeobachtungsstudie keine Hämodialyse erforderten, wurden ausgeschlossen (Abb. 1).

Ergebnis

Um die Interpretierbarkeit zu verbessern und die Modellerstellung zu vereinfachen, wurde das Ergebnis für die Vorhersagemodellierung dichotomisiert als erfolgreicher nicht unterstützter AVF-Einsatz innerhalb von 1 Jahr, definiert als 2-Nadel-Kanüle zur Hämodialyse für ≥ 90 Tage ohne vorherige Intervention. Patienten, die ihre AVF innerhalb eines Jahres oder vor einem terminalen Ereignis (Tod, Transplantation, Verzicht auf den Zugang oder Verlust der Nachsorge) nicht erfolgreich angewendet hatten, wurden als Patienten mit nicht erfolgreicher Anwendung eingestuft. Für Patienten mit vorherrschender Hämodialyse begann das Zeitfenster von einem Jahr am Tag ihrer Operation. Bei Patienten, die zum Zeitpunkt der Erstellung des AVF noch keine Hämodialyse erhielten und die nicht innerhalb eines Jahres mit der Hämodialyse begannen, wurde die erfolgreiche Anwendung definiert als 2-Nadel-Kanülen für alle verschriebenen Hämodialysen für einen Zeitraum von 90 aufeinanderfolgenden Tagen, beginnend innerhalb von 6 Wochen nach Beginn der Hämodialyse . Ähnliche Ansätze wurden in früheren Analysen von AVF-Daten implementiert5.

Kovariatenauswahl

Kovariaten wurden von allen prädiktiven Modellierungsprozessen gemeinsam genutzt und umfassten Alter, Geschlecht, Rasse, ethnische Zugehörigkeit, Body-Mass-Index, Raucherstatus, medizinische Komorbiditäten, Hämodialysestatus zum Zeitpunkt der AVF-Erstellung, CVC-Vorgeschichte, CKD-Ätiologie, gemessener Ausgangsvenen- und Arteriendurchmesser im Operationssaal nach Einleitung der Anästhesie, AVF-Lage, Anästhesiemodalität, Anastomosennahttechnik, Statinanwendung, antithrombotische Anwendung und Volumen der Registrierungsstelle. Ultraschalldaten aus der 4- bis 6-wöchigen Visite wurden aufgrund von Parallelen zu früheren Arbeiten zur Untersuchung der Vorhersage der nicht assistierten AVF-Nutzung, der klinischen Relevanz und der Komplexität der gemeinsamen Einbeziehung von 4- bis 6-wöchigen und 12-wöchigen Daten in Modelle für die prädiktive Modellierung ausgewählt. Die Ultraschall-Kovariaten umfassten den Durchmesser der Kopfvene, das AVF-Flussvolumen und das Vorhandensein oder Nichtvorhandensein einer Lumenstenose von ≥ 50 %. Die Analyse beschränkte sich auf Patienten mit vollständigen 4–6-wöchigen Ultraschalldaten, wie oben beschrieben. Das Fehlen von Kovariaten wurde unter Verwendung der Imputation von K-nächsten Nachbarn berücksichtigt17.

statistische Analyse

Bei der Berichterstattung über deskriptive Statistiken wurden kategoriale Variablen unter Verwendung von Häufigkeit mit Prozentsatz zusammengefasst. Kontinuierliche Variablen wurden bei normaler Verteilung als Mittelwert mit Standardabweichung und andernfalls als Median mit Interquartilsabstand angegeben. Unbereinigte Vergleiche von Ultraschallvariablen wurden unter Verwendung einer Varianzanalyse (ANOVA), gefolgt von einem Tukey-Test, durchgeführt. Gepaarte Daten wurden unter Verwendung von gepaarten t-Tests verglichen. Kategoriale Daten wurden unter Verwendung von Pearsons Chi-Quadrat-Tests verglichen. Es wurde ein zweiseitiges Alpha-Niveau von 0,05 verwendet. Alle Analysen wurden mit R Version 4.0.5 (https://cran.r-project.org/) und den Paketen durchgeführt aufgeräumt, ordentliche Modelle, glmnet, rpartund ordentlich.

Modellierungsübersicht

Um unser Ziel zu erreichen, ein prädiktives Klassifizierungsmodell zu erstellen, haben wir mehrere Modellierungsverfahren mit jeweils eigenen potenziellen Vor- und Nachteilen untersucht. Zu den Modellierungsmethoden gehörten traditionelle logistische Regression, penalisierte logistische Regression mit Lasso, Klassifizierung und Regressionsbaum (CART)-Methoden sowie zwei Ensemble-Klassifizierungsmethoden: Random Forest und XGBoost. Jeder Ansatz ist individuell mit unterschiedlichen potenziellen Vor- und Nachteilen; Wir haben versucht, Modellkomplexität, Flexibilität und Leistung mit Interpretierbarkeit und klinischem Nutzen in Einklang zu bringen.

Die multivariable logistische Regression wird als „Goldstandard“ bei Klassifikationsproblemen verwendet. Wenn mehrere Kovariaten für die Modellierung verwendet werden, kann eine einfache logistische Regression zu einer Überanpassung mit Verzerrungen bei der Koeffizientenschätzung führen, was zu einem Leistungsabfall führt, wenn das Modell auf externe Daten angewendet wird. Um dieses Problem anzugehen, verwenden Penalized-Regression-Techniken Koeffizientenverkleinerung, um Out-of-Sample-Bias zu reduzieren; Lasso ist eine beliebte Technik aufgrund seiner Fähigkeit, Koeffizienten auf Null zu verkleinern, was als empirische Variablenauswahlmethode fungiert und zu einfacheren endgültigen Modellen führt18. Insbesondere wird der Bias-Varianz-Kompromiss immer ein Kompromiss sein und eine Überanpassung kann nicht beseitigt werden, aber die hier beschriebenen Bestrafungs- und Kreuzvalidierungstechniken können eine Überanpassung abschwächen (insbesondere in kleineren Datensätzen).

Das CART-Verfahren ist ein weiteres traditionelles Verfahren zur Klassifizierung, mit dem Hauptvorteil, dass es flexibel eine klinisch interpretierbare Entscheidungsregel erstellt, aber mit dem Nachteil, dass es selbst bei Beschneidungsmethoden eine möglicherweise instabile Leistung in externen Datensätzen aufweist19. Um dieses Problem zu lösen, wurden Baum-Ensemble-Methoden wie Random Forest und XGBoost mit weit verbreiteter Akzeptanz entwickelt20.21. Random Forest und XGboost sind sehr flexibel und berücksichtigen Wechselwirkungen zwischen Variablen mit relativ geringer Verzerrung. Random Forest lässt Tausende von Bäumen auf ähnliche Weise wie CART wachsen, verwendet jedoch zufällige Stichproben von Variablen und Datensätzen, die dann gemittelt werden, um ein endgültiges Modell zu erhalten (eine Technik, die als Bootstrap-Aggregation oder „Bagging“ bezeichnet wird). In ähnlicher Weise kann XGBoost Tausende von Bäumen erstellen, verwendet aber zusätzlich den Fehler aus jedem Baum, um die für jeden nachfolgenden Baum ausgewählten Stichproben neu zu gewichten (als Gradient Boosting bezeichnet), wobei theoretisch Variablen mit der besten Vorhersageleistung bevorzugt und bedeutungslose Variablen abgeschwächt werden. Die Wichtigkeit von Variablen kann mit einer Vielzahl von Methoden untersucht werden, aber ein tieferes Verständnis der Beziehungen zwischen Variablen in Ensemble-Techniken ist eine Herausforderung und kann aufgrund der geringeren Interpretierbarkeit zu Skepsis bei Klinikern führen.

Modellierungsdetails

Alle prädiktiven Modellierungsmethoden wurden mit einem Trainings-, Hyperparameter-Tuning- und Testparadigma unter Verwendung einer Kombination aus klinischen Ausgangscharakteristika und den oben beschriebenen 4–6-Wochen-US-Parametern erstellt. Wir haben vor der Modellerstellung, Diagnose oder Datenbereinigung eine zufällige anfängliche 70/30-Aufteilung in Trainings- und Testdatensätze durchgeführt. Kontinuierliche Variablen wurden durch Zentrieren (Subtrahieren des Durchschnitts) und Skalieren (Dividieren durch die Standardabweichung) ihrer Verteilungen vor der Modellanpassung vorverarbeitet. Insgesamt 5 fehlende Werte wurden unter Verwendung der K-Nearest-Neighbors-Methodik (BMI, nicht= 1; intraoperativer Venendurchmesser, nicht= 2; intraoperativer Arteriendurchmesser, nicht= 2)17. Modelle wurden unter Verwendung des Trainingsdatensatzes erstellt, und Hyperparameter wurden mithilfe von Rastersuchmethoden mit verschachtelter 10-facher Kreuzvalidierung innerhalb des Trainingsdatensatzes abgestimmt.

Unser Modellierungsansatz begann mit einer einfachen logistischen Regression unter Einbeziehung aller Kovariaten in einem Haupteffektmodell. Als Nächstes wurde ein mit Lasso bestraftes logistisches Regressionsmodell angepasst, um empirisch Kovariaten auszuwählen, die für die Vorhersage am nützlichsten sind18. Die Regularisierungsstrafe wurde gewählt, um das sparsamste Modell innerhalb eines Standardfehlers der Regularisierungsstrafe mit dem mindestens 10-fachen kreuzvalidierten mittleren Log-Verlust auszuwählen. Lasso wurde zur Variablenauswahl für die Anpassung eines logistischen Regressionsmodells verwendet. Schließlich wurde ein elastisches Netzmodell unter Verwendung einer regulären Gittersuche mit 10 Ebenen und verschachtelter 10-facher Kreuzvalidierung angepasst, um sowohl den Regularisierungsstrafwert als auch den elastischen Netzmischungsparameter abzustimmen22. Die variable Wichtigkeit wurde als absoluter Wert der skalierten Koeffizienten bei der optimalen Regularisierungsstrafe berechnet.

Es wurde auch ein einfacher Klassifikationsbaumansatz verfolgt, in der Hoffnung, die Interpretierbarkeit zu verbessern, falls ein einfacher und nützlicher Entscheidungsbaum identifiziert werden könnte19. Das Baummodell wurde durch Optimierung des Komplexitätsparameters und der Baumtiefe unter Verwendung einer regulären Gittersuche mit 10 Ebenen und verschachtelter 10-facher Kreuzvalidierung beschnitten. Die Bedeutung der Variablen wurde über die Gesamt-Gini-Verunreinigungsreduktionsmethode berechnet.

Ein zufälliges Forest-Klassifizierungsmodell wurde mit dem Ziel erstellt, die Vorhersageleistung auf Kosten einer gewissen Interpretierbarkeit zu erhöhen. Zu den optimierten Hyperparametern gehörten die Anzahl der Kovariaten für jede versuchte Knotenaufteilung und die minimale Knotengröße. Hyperparameter wurden mit einer regulären Gittersuche mit 10 Ebenen und verschachtelter 10-facher Kreuzvalidierung abgestimmt. Alle zufälligen Waldmodelle wurden mit 1.000 Bäumen erstellt. Die Bedeutung der Variablen wurde über die Gini-Verunreinigungsreduktionsmethode berechnet20.23.

Ein verstärktes Baummodell wurde unter Verwendung der XGBoost-Methode mit einer logistischen Verlustfunktion erstellt21. Die Baumtiefe, die minimale Knotengröße, die Lernrate und die minimale Verlustreduzierung, die erforderlich ist, um eine weitere Partition auf einem Blattknoten zu erstellen, wurden unter Verwendung einer verschachtelten 10-fachen Kreuzvalidierung und einer maximalen Entropie-Gittersuche mit 100 Hyperparameterkonfigurationen abgestimmt. Die variable Wichtigkeit wurde über die Methode des Informationsgewinns berechnet.

Nach dem Hyperparameter-Tuning wurden die endgültigen Modelle am gesamten Trainingsdatensatz neu angepasst. Die endgültige Modellleistung wurde anhand der Vorhersage des Hold-out-Testdatensatzes bewertet. Für alle Modelle wurde eine Klassifizierungsschwelle von 0,5 verwendet. Receiver Operating Characteristic (ROC)-Kurvenplots, Kalibrierungsplots und Entscheidungskurvenplots wurden für jeden Modellierungsansatz erstellt. Leistungsmetriken für jeden Modellierungsansatz wurden berechnet, einschließlich der Fläche unter der ROC-Kurve (AUROC), der Fläche unter der Präzisions-Rückruf-Kurve (AUPRC), Sensitivität, Spezifität, Genauigkeit sowie Steigung und Achsenabschnitt der logistischen Kalibrierung. Die diskriminative Leistung jedes Modells wurde mit der Leistung der statischen Schwellenwertkriterien verglichen, die sich dem UAB (Flussvolumen > 500 ml/min und Venendurchmesser > 4 mm) und dem KDOQI (Flussvolumen > 600 ml/min und Venendurchmesser > 6 mm) annähern. Ultraschallkriterien. Entscheidungskurven wurden für jede mögliche Strategie zur AVF-Nutzungsvorhersage über einen Bereich von Schwellenwahrscheinlichkeiten aufgetragen24.

Zusammenfassung der Berichterstattung

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Research Reporting Summary.

Leave a Comment

Your email address will not be published.