Coluna / Columna v.24, n.2 /2025

INTELIGÊNCIA ARTIFICIAL NO DIAGNÓSTICO DA ESCOLIOSE: UM ESTUDO COMPARATIVO ENTRE CHATGPT E CIRURGIÕES


ARTIFICIAL INTELLIGENCE IN SCOLIOSIS DIAGNOSIS: A COMPARATIVE STUDY BETWEEN CHATGPT AND SURGEONS


INTELIGENCIA ARTIFICIAL EN EL DIAGNÓSTICO DE LA ESCOLIOSIS: UN ESTUDIO COMPARATIVO ENTRE CHATGPT Y CIRUJANOS


LUCAS SILVEIRA RABELLO DE OLIVEIRA , RAFAEL CARBONI DE SOUZA , ANDRÉ EVARISTO MARCONDES CESAR , BRUNO VIEIRA MOTTER , WILKER HERKSON DE ALMEIDA OLIVEIRA , GUILHERME FOIZER , GABRIELLE DO AMARAL VIRGINIO PEREIRA , LUCIANO MILLER REIS RODRIGUES


DOI: http://dx.doi.org/10.1590/S1808-185120252402293157



RESUMO:

Objetivo:
Este estudo explora a acurácia do ChatGPT na classificação e sugestão de condutas para escoliose idiopática do adolescente, avaliando o nível de concordância entre as respostas do modelo de inteligência artificial e as avaliações de especialistas em cirurgia de coluna vertebral. Procurando ajudar a responder a seguinte pergunta: É possível confiar no ChatGPT-4 (inteligência artificial de linguagem natural) para recomendar condutas diante de casos típicos do cotidiano, servindo como um auxílio para ortopedistas menos experientes ou até mesmo para médicos generalistas? A análise proposta busca identificar o potencial e as limitações da aplicabilidade da inteligência artificial no suporte ao diagnóstico e decisão clínica, sem treinamento prévio da plataforma.

Métodos:
Trata-se de um estudo transversal com cinco casos fictícios de escoliose idiopática apresentados ao ChatGPT, que forneceu a classificação de Lenke e uma sugestão de conduta para cada caso. Um painel de 37 cirurgiões avaliou as respostas, emitiu a melhor conduta e pontuou as recomendações do ChatGPT em uma escala Likert de 1 a 5, refletindo seu nível de concordância.

Resultados:
Em casos mais simples (Caso 1), o ChatGPT demonstrou alta concordância com os especialistas, com 97,3% dos cirurgiões concordando com a recomendação de “cirurgia de instrumentação” (AC1=0,95). Entretanto, em casos mais complexos (Casos 3 e 5), a concordância foi significativamente menor, com apenas 11,1% e 18,8% dos especialistas aceitando as recomendações da IA, respectivamente. A precisão do modelo na classificação de Lenke foi consistente em todos os casos, evidenciando sua capacidade de aplicar critérios padronizados. Não houve correlação significativa entre a experiência dos cirurgiões e o nível de concordância com o software.

Conclusão:
O ChatGPT demonstrou potencial como ferramenta auxiliar no diagnóstico e planejamento terapêutico de escoliose, especialmente na classificação, porém ainda não está pronta para ser utilizada de maneira confiável e replicável, especialmente em casos mais complexos, especialmente em considerar nuances clínicas e fatores individuais do paciente. Apesar de promissora, a adoção dessa tecnologia poderá complementar o julgamento clínico, mas ainda requer supervisão e não substitui o papel da avaliação médica especializada no cenário atual.


Palavras-chave: Inteligência Artificial,Escoliose,Coluna Vertebral,Fusão vertebral,Curvaturas da Coluna Vertebral,Estudo Comparativo

ABSTRACT

Objective:
This study explores the accuracy of ChatGPT in classifying and suggesting approaches for adolescent idiopathic scoliosis, assessing the level of agreement between the artificial intelligence model’s responses and the evaluations of spine surgery specialists. It aims to help answer the following question: Is it possible to trust ChatGPT-4 (natural language artificial intelligence) to recommend approaches for typical everyday cases, aiding less experienced orthopedists or even general practitioners? The proposed analysis seeks to identify the potential and limitations of applying artificial intelligence to support diagnosis and clinical decision-making without prior training of the platform.

Methods:
This is a cross-sectional study involving five fictitious cases of idiopathic scoliosis presented to ChatGPT, which provided the Lenke classification and a suggested approach for each case. A panel of 37 surgeons evaluated the responses, determined the best approach, and scored ChatGPT’s recommendations on a Likert scale from 1 to 5, reflecting their level of agreement.

Results:
In simpler cases (Case 1), ChatGPT showed high agreement with the specialists, with 97.3% of the surgeons agreeing with the recommendation of “instrumentation surgery” (AC1=0.95). However, agreement was significantly lower in more complex cases (Cases 3 and 5), with only 11.1% and 18.8% of the specialists accepting the Al’s recommendations, respectively. The model’s accuracy in the Lenke classification was consistent across all cases, demonstrating its ability to apply standardized criteria. There was no significant correlation between the surgeons’ experience and their level of agreement with the software.

Conclusion:
ChatGPT showed potential as an auxiliary tool in the diagnosis and therapeutic planning of scoliosis, particularly in classification, but it is not yet ready to be used reliably and consistently, especially in more complex cases, particularly when considering clinical nuances and individual patient factors. Although promising, the adoption of this technology can complement clinical judgment but still requires supervision and does not replace the role of specialized medical evaluation in the current scenario.


Keywords: Artificial Intelligence,Scoliosis,Spine,Spinal Fusion,Spinal Curvatures,Comparative Study

Resumen:

Objetivo:
Este estudio explora la precisión de ChatGPT en la clasificación y sugerencia de conductas para la escoliosis idiopática del adolescente, evaluando el nivel de concordancia entre las respuestas del modelo de inteligencia artificial y las evaluaciones de especialistas en cirugía de columna vertebral. Busca ayudar a responder la siguiente pregunta: ¿Es posible confiar en ChatGPT-4 (inteligencia artificial de lenguaje natural) para recomendar conductas en casos típicos del día a día, sirviendo como una ayuda para ortopedistas menos experimentados o incluso médicos generalistas? El análisis propuesto busca identificar el potencial y las limitaciones de la aplicabilidad de la inteligencia artificial en el apoyo al diagnóstico y la toma de decisiones clínicas, sin entrenamiento previo de la plataforma.

Métodos:
Se trata de un estudio transversal con cinco casos ficticios de escoliosis idiopática presentados a ChatGPT, que proporcionó la clasificación de Lenke y una sugerencia de conducta para cada caso. Un panel de 37 cirujanos evaluó las respuestas, emitió la mejor conducta y puntuó las recomendaciones de ChatGPT en una escala Likert de 1 a 5, reflejando su nivel de concordancia.

Resultados:
En casos más simples (Caso 1), ChatGPT demostró una alta concordancia con los especialistas, con el 97,3% de los cirujanos de acuerdo con la recomendación de “cirugía de instrumentación” (AC1=0,95). Sin embargo, en casos más complejos (Casos 3 y 5), la concordancia fue significativamente menor, con solo el 11,1% y el 18,8% de los especialistas aceptando las recomendaciones de la lA, respectivamente. La precisión del modelo en la clasificación de Lenke fue consistente en todos los casos, evidenciando su capacidad para aplicar criterios estandarizados. No hubo una correlación significativa entre la experiencia de los cirujanos y el nivel de concordancia con el software.

Conclusión:
ChatGPT demostró potencial como herramienta auxiliar en el diagnóstico y la planificación terapéutica de la escoliosis, especialmente en la clasificación, pero aún no está listo para ser utilizado de manera confiable y replicable, particularmente en casos más complejos, especialmente al considerar matices clínicos y factores individuales del paciente. Aunque prometedora, la adopción de esta tecnología puede complementar el juicio clínico, pero aún requiere supervisión y no reemplaza el papel de la evaluación médica especializada en el escenario actual.


Palavras-chave: Inteligencia Artificial,Escoliosis,Columna Vertebral,Fusión Vertebral,Curvaturas de la Columna Vertebral,Estudio Comparativo






Indexadores