Elements of learning theory and their application in the prediction of malignancy of breast lesions
Elements of learning theory and their application in the prediction of malignancy of breast lesions [recurso eletrônico] / Alek Fröhlich ; Orientador, Douglas Soares Gonçalves ; coorientador, Daniel Guimarães Tiezzi
Data de publicação
2024
Descrição física
96 p. : il.
Nota
Disponível somente em versão on-line.
Dissertação (mestrado) – Universidade Federal de Santa Catarina, Centro de Ciências Físicas e Matemáticas, Programa de Pós-Graduação em Matemática Pura e Aplicada, Florianópolis, 2024.
Inclui referências.
A estratégia atual de controle do câncer de mama no sistema público de saúde brasileiro depende da determinação manual de escores BI-RADS para avaliação de malignidade durante exames de ultrassom, frequentemente resultando em biópsias desnecessárias. A previsão de malignidade a partir de características clínicas e de ultrassom poderia aliviar a carga de trabalho dos patologistas e compensar lacunas de habilidade em médicos iniciantes ou não especialistas. Métodos de aprendizagem de máquina têm se mostrado promissores no uso de características de ultrassom de modo B para previsão de malignidade de lesões de mama. Nesta dissertação, discutimos elementos da teoria de aprendizagem de máquina, incluindo desigualdades de concentração e dimensão VC, que são conceitos-chave para a análise de propriedades de generalização de algoritmos de aprendizagem. Em seguida, mostramos como tais conceitos podem ser usados para elaboração de cotas de generalização para os valores preditivos. Em cenários com grandes tamanhos de amostra e pequena dimensão VC, um estudo de validação baseado nessas cotas de generalização seria possível. Também apresentamos uma abordagem baseada em gradient boosting para identificação de lesões benignas, que incorpora características clínicas, baseadas em Doppler e clássicas de ultrassom em modo B. Um classificador XGBoost foi treinado com dados de 1929 lesões de mama obtidas a partir de uma coorte de pacientes de quatro centros de referência de câncer de mama no Brasil. Nosso classificador alcançou uma área sob a curva de precisão-recall média (AUPRC) de 0,95 e boa calibração em validação cruzada repetida de 5 folds. Nosso trabalho fornece uma solução baseada em gradient boosting promissora que pode beneficiar a prática clínica. Embora não seja aplicável para estimar o erro de generalização das curvas de valor preditivo em nosso problema, devido a um tamanho de amostra insuficiente e à falta de precisão nas estimativas atuais para a dimensão VC de gradient boosted regression trees, as ferramentas matemáticas desenvolvidas nesta dissertação são de extrema importância para o design de algoritmos de aprendizagem confiáveis e podem ser aplicadas a uma gama mais ampla de problemas do que os considerados nesta dissertação.
exportar: MARC tags, MARCXML, ISO 2709
Campo | Ind1 | Ind2 | Dados |
---|---|---|---|
Líder | 05752nam a2200301 a 4500 | ||
001 - Número de controle | B000094 | ||
003 - Identificador do número de controle | BR-FlWIK | ||
005 - Data e hora da última transação | 20241007143557.0 | ||
008 - Informações gerais | 241007s2024 scba g m 000 0 eng d | ||
040 - Fonte da catalogação | # | # |
$aBR-FlWIK |
090 - Número de chamada local (etiqueta) | # | # |
$aCETD |
100 - Ponto de acesso principal - Nome pessoal | 1 | # |
$aFröhlich, Alek |
245 - Indicação de título | 1 | 0 |
$aElements of learning theory and their application in the prediction of malignancy of breast lesions |
260 - Publicação, distribuição, etc. (Imprenta) | # | # |
$c2024. |
300 - Descrição física | # | # |
$a96 p. : |
500 - Nota geral | # | # |
$aDisponível somente em versão on-line. |
502 - Nota de dissertação | # | # |
$aDissertação (mestrado) – Universidade Federal de Santa Catarina, Centro de Ciências Físicas e Matemáticas, Programa de Pós-Graduação em Matemática Pura e Aplicada, Florianópolis, 2024. |
504 - Nota de bibliografia, etc. | # | # |
$aInclui referências. |
520 - Resumo, etc. | # | # |
$aA estratégia atual de controle do câncer de mama no sistema público de saúde brasileiro depende da determinação manual de escores BI-RADS para avaliação de malignidade durante exames de ultrassom, frequentemente resultando em biópsias desnecessárias. A previsão de malignidade a partir de características clínicas e de ultrassom poderia aliviar a carga de trabalho dos patologistas e compensar lacunas de habilidade em médicos iniciantes ou não especialistas. Métodos de aprendizagem de máquina têm se mostrado promissores no uso de características de ultrassom de modo B para previsão de malignidade de lesões de mama. Nesta dissertação, discutimos elementos da teoria de aprendizagem de máquina, incluindo desigualdades de concentração e dimensão VC, que são conceitos-chave para a análise de propriedades de generalização de algoritmos de aprendizagem. Em seguida, mostramos como tais conceitos podem ser usados para elaboração de cotas de generalização para os valores preditivos. Em cenários com grandes tamanhos de amostra e pequena dimensão VC, um estudo de validação baseado nessas cotas de generalização seria possível. Também apresentamos uma abordagem baseada em gradient boosting para identificação de lesões benignas, que incorpora características clínicas, baseadas em Doppler e clássicas de ultrassom em modo B. Um classificador XGBoost foi treinado com dados de 1929 lesões de mama obtidas a partir de uma coorte de pacientes de quatro centros de referência de câncer de mama no Brasil. Nosso classificador alcançou uma área sob a curva de precisão-recall média (AUPRC) de 0,95 e boa calibração em validação cruzada repetida de 5 folds. Nosso trabalho fornece uma solução baseada em gradient boosting promissora que pode beneficiar a prática clínica. Embora não seja aplicável para estimar o erro de generalização das curvas de valor preditivo em nosso problema, devido a um tamanho de amostra insuficiente e à falta de precisão nas estimativas atuais para a dimensão VC de gradient boosted regression trees, as ferramentas matemáticas desenvolvidas nesta dissertação são de extrema importância para o design de algoritmos de aprendizagem confiáveis e podem ser aplicadas a uma gama mais ampla de problemas do que os considerados nesta dissertação. |
520 - Resumo, etc. | 8 | # |
$aAbstract: The current breast cancer control strategy employed in the Brazilian public health system relies on manual determination of BI-RADS scores by clinicians to assess malignancy during ultrasound examinations, often leading to unnecessary biopsies. Predicting malignancy from clinical and ultrasound features could ease pathologists’ workload and offset skill gaps in beginner or non-specialist physicians. Machine learning has shown promise in using B-mode ultrasound features to predict breast lesion malignancy. In this thesis, we discuss elements from the theory of machine learning, including concentration inequalities and VC dimension, which are key concepts to analyse the generalization properties of learning algorithms. Then, we show how such concepts can be used to devise generalization bounds for the predictive values. In scenarios with large sample sizes and small VC dimension, a learning-theoretical validation study based on these predictive value generalization bounds would be possible. We also present a gradient boosting approach for identifying benign lesions that incorporates both clinical and Doppler-based features alongside classical B-mode ultrasound features. An XGBoost classifier was trained with data from 1929 breast lesions obtained from a cohort of patients across four breast cancer reference centers in Brazil. Our classifier achieved a mean area under the precision-recall curve (AUPRC) of 0.95 and good calibration in repeated 5-fold cross-validation. Our work provides a promissing gradient boosting solution that may be of benefit to clinical practice. Although not applicable to the estimation of the generalization error of the predictive value curves in our problem due to an insufficient sample size and lack of tightness in current estimates of the VC dimension of gradient-boosted trees, the mathematical tools developed in this thesis are of utmost importance to the design of reliable learning algorithms and may be applied to a wider range of problems than the ones considered is this thesis. |
650 - Ponto de acesso secundário de assunto - Termo tópico | 0 | 4 |
$aAprendizagem de Máquina |
650 - Ponto de acesso secundário de assunto - Termo tópico | 0 | 4 |
$aModelagem de Pedição Clínica |
650 - Ponto de acesso secundário de assunto - Termo tópico | 0 | 4 |
$aCâncer de mama |
650 - Ponto de acesso secundário de assunto - Termo tópico | 0 | 4 |
$aUltrassom |
700 - Ponto de acesso secundário - Nome pessoal | 1 | # |
$aGonçalves, Douglas Soares, |
700 - Ponto de acesso secundário - Nome pessoal | 1 | # |
$aTiezzi, Daniel Guimarães, |
710 - Ponto de acesso secundário - Entidade coletiva | 2 | # |
$aUniversidade Federal de Santa Catarina. |
856 - Localização e acesso eletrônicos | 4 | 0 |
$zVersão integral em pdf |