Elements of learning theory and their application in the prediction of malignancy of breast lesions

De Wikincat
Revisão de 14h35min de 7 de outubro de 2024 por Beatriz.borges (discussão | contribs) (Criou página com '{{BibRecord |dateEnteredOnFile=241007 |itemType=04 |recordStatus=n |typeOfRecord=a |bibliographicLevel=m |encodingLevel=  |descriptiveCatalogingForm=a |multipartResourceRecordLevel=  |typeOfDate=s |date1=2024 |placeOfPublication=scb |illustrations=a |targetAudience=g |formOfItem=  |natureOfContents=m |governmentPublication=  |conferencePublication=  |festschrift=  |index=  |literaryForm=  |biography=  |language=eng |modifiedRecord=  |catalogingSource=d }} {{Fie...')
(dif) ← Edição anterior | Revisão atual (dif) | Versão posterior → (dif)
Ir para navegação Ir para pesquisar


Título principal
Elements of learning theory and their application in the prediction of malignancy of breast lesions [recurso eletrônico] / Alek Fröhlich ; Orientador, Douglas Soares Gonçalves ; coorientador, Daniel Guimarães Tiezzi
Data de publicação

Descrição física
96 p. : il.
Nota
Disponível somente em versão on-line.
Dissertação (mestrado) – Universidade Federal de Santa Catarina, Centro de Ciências Físicas e Matemáticas, Programa de Pós-Graduação em Matemática Pura e Aplicada, Florianópolis, 2024.
Inclui referências.
Abstract: The current breast cancer control strategy employed in the Brazilian public health system relies on manual determination of BI-RADS scores by clinicians to assess malignancy during ultrasound examinations, often leading to unnecessary biopsies. Predicting malignancy from clinical and ultrasound features could ease pathologists’ workload and offset skill gaps in beginner or non-specialist physicians. Machine learning has shown promise in using B-mode ultrasound features to predict breast lesion malignancy. In this thesis, we discuss elements from the theory of machine learning, including concentration inequalities and VC dimension, which are key concepts to analyse the generalization properties of learning algorithms. Then, we show how such concepts can be used to devise generalization bounds for the predictive values. In scenarios with large sample sizes and small VC dimension, a learning-theoretical validation study based on these predictive value generalization bounds would be possible. We also present a gradient boosting approach for identifying benign lesions that incorporates both clinical and Doppler-based features alongside classical B-mode ultrasound features. An XGBoost classifier was trained with data from 1929 breast lesions obtained from a cohort of patients across four breast cancer reference centers in Brazil. Our classifier achieved a mean area under the precision-recall curve (AUPRC) of 0.95 and good calibration in repeated 5-fold cross-validation. Our work provides a promissing gradient boosting solution that may be of benefit to clinical practice. Although not applicable to the estimation of the generalization error of the predictive value curves in our problem due to an insufficient sample size and lack of tightness in current estimates of the VC dimension of gradient-boosted trees, the mathematical tools developed in this thesis are of utmost importance to the design of reliable learning algorithms and may be applied to a wider range of problems than the ones considered is this thesis.

A estratégia atual de controle do câncer de mama no sistema público de saúde brasileiro depende da determinação manual de escores BI-RADS para avaliação de malignidade durante exames de ultrassom, frequentemente resultando em biópsias desnecessárias. A previsão de malignidade a partir de características clínicas e de ultrassom poderia aliviar a carga de trabalho dos patologistas e compensar lacunas de habilidade em médicos iniciantes ou não especialistas. Métodos de aprendizagem de máquina têm se mostrado promissores no uso de características de ultrassom de modo B para previsão de malignidade de lesões de mama. Nesta dissertação, discutimos elementos da teoria de aprendizagem de máquina, incluindo desigualdades de concentração e dimensão VC, que são conceitos-chave para a análise de propriedades de generalização de algoritmos de aprendizagem. Em seguida, mostramos como tais conceitos podem ser usados para elaboração de cotas de generalização para os valores preditivos. Em cenários com grandes tamanhos de amostra e pequena dimensão VC, um estudo de validação baseado nessas cotas de generalização seria possível. Também apresentamos uma abordagem baseada em gradient boosting para identificação de lesões benignas, que incorpora características clínicas, baseadas em Doppler e clássicas de ultrassom em modo B. Um classificador XGBoost foi treinado com dados de 1929 lesões de mama obtidas a partir de uma coorte de pacientes de quatro centros de referência de câncer de mama no Brasil. Nosso classificador alcançou uma área sob a curva de precisão-recall média (AUPRC) de 0,95 e boa calibração em validação cruzada repetida de 5 folds. Nosso trabalho fornece uma solução baseada em gradient boosting promissora que pode beneficiar a prática clínica. Embora não seja aplicável para estimar o erro de generalização das curvas de valor preditivo em nosso problema, devido a um tamanho de amostra insuficiente e à falta de precisão nas estimativas atuais para a dimensão VC de gradient boosted regression trees, as ferramentas matemáticas desenvolvidas nesta dissertação são de extrema importância para o design de algoritmos de aprendizagem confiáveis e podem ser aplicadas a uma gama mais ampla de problemas do que os considerados nesta dissertação.
Campo Ind1 Ind2 Dados
Líder 05752nam a2200301 a 4500
001 - Número de controle B000094
003 - Identificador do número de controle BR-FlWIK
005 - Data e hora da última transação 20241007143557.0
008 - Informações gerais 241007s2024    scba   g m    000 0 eng d
















040 - Fonte da catalogação # #

$aBR-FlWIK
$bpor
$cBR-FlWIK
$dBR-FlUSC

090 - Número de chamada local (etiqueta) # #

$aCETD
$bUFSC
$cPMTM
$d0316

100 - Ponto de acesso principal - Nome pessoal 1 #

$aFröhlich, Alek

245 - Indicação de título 1 0

$aElements of learning theory and their application in the prediction of malignancy of breast lesions
$h[recurso eletrônico] /
$cAlek Fröhlich ; Orientador, Douglas Soares Gonçalves ; coorientador, Daniel Guimarães Tiezzi

260 - Publicação, distribuição, etc. (Imprenta) # #

$c2024.

300 - Descrição física # #

$a96 p. :
$bil.

500 - Nota geral # #

$aDisponível somente em versão on-line.

502 - Nota de dissertação # #

$aDissertação (mestrado) – Universidade Federal de Santa Catarina, Centro de Ciências Físicas e Matemáticas, Programa de Pós-Graduação em Matemática Pura e Aplicada, Florianópolis, 2024.

504 - Nota de bibliografia, etc. # #

$aInclui referências.

520 - Resumo, etc. # #

$aA estratégia atual de controle do câncer de mama no sistema público de saúde brasileiro depende da determinação manual de escores BI-RADS para avaliação de malignidade durante exames de ultrassom, frequentemente resultando em biópsias desnecessárias. A previsão de malignidade a partir de características clínicas e de ultrassom poderia aliviar a carga de trabalho dos patologistas e compensar lacunas de habilidade em médicos iniciantes ou não especialistas. Métodos de aprendizagem de máquina têm se mostrado promissores no uso de características de ultrassom de modo B para previsão de malignidade de lesões de mama. Nesta dissertação, discutimos elementos da teoria de aprendizagem de máquina, incluindo desigualdades de concentração e dimensão VC, que são conceitos-chave para a análise de propriedades de generalização de algoritmos de aprendizagem. Em seguida, mostramos como tais conceitos podem ser usados para elaboração de cotas de generalização para os valores preditivos. Em cenários com grandes tamanhos de amostra e pequena dimensão VC, um estudo de validação baseado nessas cotas de generalização seria possível. Também apresentamos uma abordagem baseada em gradient boosting para identificação de lesões benignas, que incorpora características clínicas, baseadas em Doppler e clássicas de ultrassom em modo B. Um classificador XGBoost foi treinado com dados de 1929 lesões de mama obtidas a partir de uma coorte de pacientes de quatro centros de referência de câncer de mama no Brasil. Nosso classificador alcançou uma área sob a curva de precisão-recall média (AUPRC) de 0,95 e boa calibração em validação cruzada repetida de 5 folds. Nosso trabalho fornece uma solução baseada em gradient boosting promissora que pode beneficiar a prática clínica. Embora não seja aplicável para estimar o erro de generalização das curvas de valor preditivo em nosso problema, devido a um tamanho de amostra insuficiente e à falta de precisão nas estimativas atuais para a dimensão VC de gradient boosted regression trees, as ferramentas matemáticas desenvolvidas nesta dissertação são de extrema importância para o design de algoritmos de aprendizagem confiáveis e podem ser aplicadas a uma gama mais ampla de problemas do que os considerados nesta dissertação.

520 - Resumo, etc. 8 #

$aAbstract: The current breast cancer control strategy employed in the Brazilian public health system relies on manual determination of BI-RADS scores by clinicians to assess malignancy during ultrasound examinations, often leading to unnecessary biopsies. Predicting malignancy from clinical and ultrasound features could ease pathologists’ workload and offset skill gaps in beginner or non-specialist physicians. Machine learning has shown promise in using B-mode ultrasound features to predict breast lesion malignancy. In this thesis, we discuss elements from the theory of machine learning, including concentration inequalities and VC dimension, which are key concepts to analyse the generalization properties of learning algorithms. Then, we show how such concepts can be used to devise generalization bounds for the predictive values. In scenarios with large sample sizes and small VC dimension, a learning-theoretical validation study based on these predictive value generalization bounds would be possible. We also present a gradient boosting approach for identifying benign lesions that incorporates both clinical and Doppler-based features alongside classical B-mode ultrasound features. An XGBoost classifier was trained with data from 1929 breast lesions obtained from a cohort of patients across four breast cancer reference centers in Brazil. Our classifier achieved a mean area under the precision-recall curve (AUPRC) of 0.95 and good calibration in repeated 5-fold cross-validation. Our work provides a promissing gradient boosting solution that may be of benefit to clinical practice. Although not applicable to the estimation of the generalization error of the predictive value curves in our problem due to an insufficient sample size and lack of tightness in current estimates of the VC dimension of gradient-boosted trees, the mathematical tools developed in this thesis are of utmost importance to the design of reliable learning algorithms and may be applied to a wider range of problems than the ones considered is this thesis.

650 - Ponto de acesso secundário de assunto - Termo tópico 0 4

$aAprendizagem de Máquina

650 - Ponto de acesso secundário de assunto - Termo tópico 0 4

$aModelagem de Pedição Clínica

650 - Ponto de acesso secundário de assunto - Termo tópico 0 4

$aCâncer de mama

650 - Ponto de acesso secundário de assunto - Termo tópico 0 4

$aUltrassom
$0(BN)000142145

700 - Ponto de acesso secundário - Nome pessoal 1 #

$aGonçalves, Douglas Soares,
$eorientador

700 - Ponto de acesso secundário - Nome pessoal 1 #

$aTiezzi, Daniel Guimarães,
$ecoorientador

710 - Ponto de acesso secundário - Entidade coletiva 2 #

$aUniversidade Federal de Santa Catarina.
$bPrograma de Pós-Graduação em Matemática Pura e Aplicada

856 - Localização e acesso eletrônicos 4 0

$zVersão integral em pdf
$uhttps://bu.ufsc.br/teses/PMTM0316-D.pdf