, RAFAEL CARBONI DE SOUZA
, ANDRÉ EVARISTO MARCONDES CESAR
, BRUNO VIEIRA MOTTER
, WILKER HERKSON DE ALMEIDA OLIVEIRA
, GUILHERME FOIZER
, GABRIELLE DO AMARAL VIRGINIO PEREIRA
, LUCIANO MILLER REIS RODRIGUES 
DOI: http://dx.doi.org/10.1590/S1808-185120252402293157
RESUMO:
Objetivo:
Este estudo explora a acurácia do ChatGPT na classificação e sugestão de
condutas para escoliose idiopática do adolescente, avaliando o nível de
concordância entre as respostas do modelo de inteligência artificial e as
avaliações de especialistas em cirurgia de coluna vertebral. Procurando
ajudar a responder a seguinte pergunta: É possível confiar no ChatGPT-4
(inteligência artificial de linguagem natural) para recomendar condutas
diante de casos típicos do cotidiano, servindo como um auxílio para
ortopedistas menos experientes ou até mesmo para médicos generalistas? A
análise proposta busca identificar o potencial e as limitações da
aplicabilidade da inteligência artificial no suporte ao diagnóstico e
decisão clínica, sem treinamento prévio da plataforma.
Métodos:
Trata-se de um estudo transversal com cinco casos fictícios de escoliose
idiopática apresentados ao ChatGPT, que forneceu a classificação de Lenke e
uma sugestão de conduta para cada caso. Um painel de 37 cirurgiões avaliou
as respostas, emitiu a melhor conduta e pontuou as recomendações do ChatGPT
em uma escala Likert de 1 a 5, refletindo seu nível de concordância.
Resultados:
Em casos mais simples (Caso 1), o ChatGPT demonstrou alta concordância com os
especialistas, com 97,3% dos cirurgiões concordando com a recomendação de
“cirurgia de instrumentação” (AC1=0,95). Entretanto, em casos mais complexos
(Casos 3 e 5), a concordância foi significativamente menor, com apenas 11,1%
e 18,8% dos especialistas aceitando as recomendações da IA, respectivamente.
A precisão do modelo na classificação de Lenke foi consistente em todos os
casos, evidenciando sua capacidade de aplicar critérios padronizados. Não
houve correlação significativa entre a experiência dos cirurgiões e o nível
de concordância com o software.
Conclusão:
O ChatGPT demonstrou potencial como ferramenta auxiliar no diagnóstico e
planejamento terapêutico de escoliose, especialmente na classificação, porém
ainda não está pronta para ser utilizada de maneira confiável e replicável,
especialmente em casos mais complexos, especialmente em considerar nuances
clínicas e fatores individuais do paciente. Apesar de promissora, a adoção
dessa tecnologia poderá complementar o julgamento clínico, mas ainda requer
supervisão e não substitui o papel da avaliação médica especializada no
cenário atual.
ABSTRACT
Objective:
This study explores the accuracy of ChatGPT in classifying and suggesting
approaches for adolescent idiopathic scoliosis, assessing the level of
agreement between the artificial intelligence model’s responses and the
evaluations of spine surgery specialists. It aims to help answer the
following question: Is it possible to trust ChatGPT-4 (natural language
artificial intelligence) to recommend approaches for typical everyday cases,
aiding less experienced orthopedists or even general practitioners? The
proposed analysis seeks to identify the potential and limitations of
applying artificial intelligence to support diagnosis and clinical
decision-making without prior training of the platform.
Methods:
This is a cross-sectional study involving five fictitious cases of idiopathic
scoliosis presented to ChatGPT, which provided the Lenke classification and
a suggested approach for each case. A panel of 37 surgeons evaluated the
responses, determined the best approach, and scored ChatGPT’s
recommendations on a Likert scale from 1 to 5, reflecting their level of
agreement.
Results:
In simpler cases (Case 1), ChatGPT showed high agreement with the
specialists, with 97.3% of the surgeons agreeing with the recommendation of
“instrumentation surgery” (AC1=0.95). However, agreement was significantly
lower in more complex cases (Cases 3 and 5), with only 11.1% and 18.8% of
the specialists accepting the Al’s recommendations, respectively. The
model’s accuracy in the Lenke classification was consistent across all
cases, demonstrating its ability to apply standardized criteria. There was
no significant correlation between the surgeons’ experience and their level
of agreement with the software.
Conclusion:
ChatGPT showed potential as an auxiliary tool in the diagnosis and
therapeutic planning of scoliosis, particularly in classification, but it is
not yet ready to be used reliably and consistently, especially in more
complex cases, particularly when considering clinical nuances and individual
patient factors. Although promising, the adoption of this technology can
complement clinical judgment but still requires supervision and does not
replace the role of specialized medical evaluation in the current scenario.
Resumen:
Objetivo:
Este estudio explora la precisión de ChatGPT en la clasificación y sugerencia
de conductas para la escoliosis idiopática del adolescente, evaluando el
nivel de concordancia entre las respuestas del modelo de inteligencia
artificial y las evaluaciones de especialistas en cirugía de columna
vertebral. Busca ayudar a responder la siguiente pregunta: ¿Es posible
confiar en ChatGPT-4 (inteligencia artificial de lenguaje natural) para
recomendar conductas en casos típicos del día a día, sirviendo como una
ayuda para ortopedistas menos experimentados o incluso médicos generalistas?
El análisis propuesto busca identificar el potencial y las limitaciones de
la aplicabilidad de la inteligencia artificial en el apoyo al diagnóstico y
la toma de decisiones clínicas, sin entrenamiento previo de la
plataforma.
Métodos:
Se trata de un estudio transversal con cinco casos ficticios de escoliosis
idiopática presentados a ChatGPT, que proporcionó la clasificación de Lenke
y una sugerencia de conducta para cada caso. Un panel de 37 cirujanos evaluó
las respuestas, emitió la mejor conducta y puntuó las recomendaciones de
ChatGPT en una escala Likert de 1 a 5, reflejando su nivel de
concordancia.
Resultados:
En casos más simples (Caso 1), ChatGPT demostró una alta concordancia con los
especialistas, con el 97,3% de los cirujanos de acuerdo con la recomendación
de “cirugía de instrumentación” (AC1=0,95). Sin embargo, en casos más
complejos (Casos 3 y 5), la concordancia fue significativamente menor, con
solo el 11,1% y el 18,8% de los especialistas aceptando las recomendaciones
de la lA, respectivamente. La precisión del modelo en la clasificación de
Lenke fue consistente en todos los casos, evidenciando su capacidad para
aplicar criterios estandarizados. No hubo una correlación significativa
entre la experiencia de los cirujanos y el nivel de concordancia con el
software.
Conclusión:
ChatGPT demostró potencial como herramienta auxiliar en el diagnóstico y la
planificación terapéutica de la escoliosis, especialmente en la
clasificación, pero aún no está listo para ser utilizado de manera confiable
y replicable, particularmente en casos más complejos, especialmente al
considerar matices clínicos y factores individuales del paciente. Aunque
prometedora, la adopción de esta tecnología puede complementar el juicio
clínico, pero aún requiere supervisión y no reemplaza el papel de la
evaluación médica especializada en el escenario actual.