OPHELIA a neural solution for text classification using joint embeddings of words and KG entities

Título principal
OPHELIA [recurso eletrônico] : a neural solution for text classification using joint embeddings of words and KG entities / Liliane Soares da Costa ; orientador, Renato Fileto
Data de publicação
2023
Descrição física
95 p. : il.
Nota
Disponível somente em versão on-line.
Tese (doutorado) – Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2023.
Inclui referências.

Assunto
Ciências da computação
Classificação
Embedding
Responsabilidade
Costa, Liliane Soares da
Fileto, Renato
Universidade Federal de Santa Catarina. Programa de Pós-Graduação em Ciência da Computação
Idioma
Inglês

Versão integral em pdf

A contínua expansão da coleta e disseminação de dados textuais tornou a classificação de texto uma tarefa crucial para aproveitar as enormes quantidades de texto digital disponíveis atualmente. O objetivo da classificação de texto é categorizar um documento de texto em uma ou mais categorias predefinidas dentro de um domínio de aplicação específico. Abordagens existentes de classificação de texto podem ser prejudicadas quando usam apenas o modelo de bagof-words para representar as características, pois isso ignora a ordem das palavras e os sentidos, que podem variar dependendo do contexto. Os embeddings de palavras surgiram recentemente para superar essas limitações, permitindo melhorias significativas de desempenho ao condensar o conhecimento da linguagem em vetores densos. Além disso, as relações entre entidades do mundo real expressas em grafos de conhecimento podem ser condensadas em vetores densos por meio de embeddings de conhecimento. No entanto, abordagens existentes não aproveitam totalmente os embeddings de conhecimento ao não considerá-las em seus modelos. Modelos tradicionais de representação de texto são limitados, pois focam exclusivamente nas palavras, carecendo da capacidade de diferenciar entre documentos que compartilham o mesmo vocabulário, mas oferecem perspectivas diferentes sobre um determinado assunto. Nesse contexto, este trabalho surge em resposta às diversas aplicações da classificação automática de texto. Além disso, ele se baseia no potencial das representações de espaço vetorial e busca preencher a lacuna relacionada à compreensão da semântica presente em dados de linguagem natural. O principal objetivo deste estudo é avançar a pesquisa no campo da Classificação de Texto, incorporando aspectos semânticos na representação de coleções de documentos. Para isso, propomos OPHELIA, uma abordagem de Rede Neural Profunda (DNN) para tarefas de classificação de texto usando embeddings de conhecimento e palavras. OPHELIA aproveita embeddings conjuntamente treinadas de grafos de conhecimento e texto. Esses embeddings podem fornecer informações contextuais mais consolidadas do que embeddings separados de texto e conhecimento, e seu uso para melhorar a classificação de texto ainda não foi suficientemente explorado. O FastText é usado para treinar embeddings conjuntos de palavras e conhecimento, permitindo que sejam consistentemente integradas em um único espaço incorporado. A rede neural usada para OPHELIA é a Rede Neural Feedforward e a Rede de Cápsulas. Esta tese fornece inicialmente uma revisão abrangente da literatura sobre classificação de texto usando embeddings como características. Em seguida, descrevemos os algoritmos e arquiteturas que compõem OPHELIA. Realizamos experimentos com diferentes modelos de redes neurais profundas com números variados de células e camadas ocultas. Cada arquitetura foi avaliada com sua melhor combinação de parâmetros para comparar seu desempenho com abordagens de ponta. Nossos resultados demonstram que OPHELIA supera as abordagens existentes no conjunto de dados da BBC e permanece competitivo nos conjuntos de dados AG News e Reuters-21578.

Abstract: The continuous expansion of textual data collection and dissemination has made text classification a crucial task for harnessing the massive amounts of digital text available today. Text classification aims to categorize a text document into one or more predefined categories within a specific application domain. Existing text classification approaches may be hindered when using just the bag-of-words model to represent features because it ignores word order and senses, which can vary depending on context. Word embeddings have recently emerged to address these limitations, allowing for significant performance improvements by condensing language knowledge into dense vectors. Furthermore, real-world entity relationships expressed in knowledge graphs can be condensed into dense vectors through knowledge embeddings. However, existing approaches do not fully leverage knowledge embeddings by failing to consider them in their models. Traditional text representation models are limited as they solely focus on words, lacking the ability to differentiate between documents that share the same vocabulary but offer different perspectives on a given subject. In this context, this work emerges in response to the diverse applications of automatic text classification. Additionally, it builds upon the potential of vector space representations and seeks to bridge the gap related to understanding the semantics present in natural language data. The primary goal of this study is to advance research in the field of Text Classification by incorporating semantic aspects into the representation of document collections. To achieve this, we propose OPHELIA, a Deep Neural Network (DNN) approach for text classification tasks using knowledge and word embeddings. OPHELIA exploits jointly trained embeddings of knowledge graphs and text. These embeddings can provide more consolidated contextual information than separate embeddings of text and knowledge, and their use for enhancing text classification has not been sufficiently explored yet. FastText is used to jointly train word and knowledge embeddings, allowing them to be consistently integrated into a single embedded space. The neural network used for OPHELIA is the Feedforward Neural Network and Capsule Network. This thesis first provides a comprehensive review of the literature on text classification using embeddings as features. Then, we describe the algorithms and architectures that constitute OPHELIA. We conduct experiments with different deep neural network models with varying numbers of hidden cells and hidden layers. Each architecture is evaluated with its optimal parameter combination to compare its performance with state-of-theart approaches. Our results demonstrate that OPHELIA outperforms existing approaches on the BBC dataset and remains competitive on AG News and Reuters-21578.

Campo	Ind1	Ind2	Dados
Líder			07257ntm a2200277 a 4500
001 - Número de controle			B000248
003 - Identificador do número de controle			BR-FlWIK
005 - Data e hora da última transação			20260525112034.0
008 - Informações gerais			241112s2023 scba g m 000 0 eng d
040 - Fonte da catalogação	#	#	$aBR-FlWIK $bpor $cBR-FlWIK $dBR-FlUSC
090 - Número de chamada local (etiqueta)	#	#	$aCETD $bUFSC $cPGCC $d1246
100 - Ponto de acesso principal - Nome pessoal	1	#	$aCosta, Liliane Soares da
245 - Indicação de título	1	0	$aOPHELIA $h[recurso eletrônico] : $ba neural solution for text classification using joint embeddings of words and KG entities / $cLiliane Soares da Costa ; orientador, Renato Fileto
260 - Publicação, distribuição, etc. (Imprenta)	#	#	$c2023.
300 - Descrição física	#	#	$a95 p. : $bil.
500 - Nota geral	#	#	$aDisponível somente em versão on-line.
502 - Nota de dissertação	#	#	$aTese (doutorado) – Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2023.
504 - Nota de bibliografia, etc.	#	#	$aInclui referências.
520 - Resumo, etc.	#	#	$aA contínua expansão da coleta e disseminação de dados textuais tornou a classificação de texto uma tarefa crucial para aproveitar as enormes quantidades de texto digital disponíveis atualmente. O objetivo da classificação de texto é categorizar um documento de texto em uma ou mais categorias predefinidas dentro de um domínio de aplicação específico. Abordagens existentes de classificação de texto podem ser prejudicadas quando usam apenas o modelo de bagof-words para representar as características, pois isso ignora a ordem das palavras e os sentidos, que podem variar dependendo do contexto. Os embeddings de palavras surgiram recentemente para superar essas limitações, permitindo melhorias significativas de desempenho ao condensar o conhecimento da linguagem em vetores densos. Além disso, as relações entre entidades do mundo real expressas em grafos de conhecimento podem ser condensadas em vetores densos por meio de embeddings de conhecimento. No entanto, abordagens existentes não aproveitam totalmente os embeddings de conhecimento ao não considerá-las em seus modelos. Modelos tradicionais de representação de texto são limitados, pois focam exclusivamente nas palavras, carecendo da capacidade de diferenciar entre documentos que compartilham o mesmo vocabulário, mas oferecem perspectivas diferentes sobre um determinado assunto. Nesse contexto, este trabalho surge em resposta às diversas aplicações da classificação automática de texto. Além disso, ele se baseia no potencial das representações de espaço vetorial e busca preencher a lacuna relacionada à compreensão da semântica presente em dados de linguagem natural. O principal objetivo deste estudo é avançar a pesquisa no campo da Classificação de Texto, incorporando aspectos semânticos na representação de coleções de documentos. Para isso, propomos OPHELIA, uma abordagem de Rede Neural Profunda (DNN) para tarefas de classificação de texto usando embeddings de conhecimento e palavras. OPHELIA aproveita embeddings conjuntamente treinadas de grafos de conhecimento e texto. Esses embeddings podem fornecer informações contextuais mais consolidadas do que embeddings separados de texto e conhecimento, e seu uso para melhorar a classificação de texto ainda não foi suficientemente explorado. O FastText é usado para treinar embeddings conjuntos de palavras e conhecimento, permitindo que sejam consistentemente integradas em um único espaço incorporado. A rede neural usada para OPHELIA é a Rede Neural Feedforward e a Rede de Cápsulas. Esta tese fornece inicialmente uma revisão abrangente da literatura sobre classificação de texto usando embeddings como características. Em seguida, descrevemos os algoritmos e arquiteturas que compõem OPHELIA. Realizamos experimentos com diferentes modelos de redes neurais profundas com números variados de células e camadas ocultas. Cada arquitetura foi avaliada com sua melhor combinação de parâmetros para comparar seu desempenho com abordagens de ponta. Nossos resultados demonstram que OPHELIA supera as abordagens existentes no conjunto de dados da BBC e permanece competitivo nos conjuntos de dados AG News e Reuters-21578.
520 - Resumo, etc.	8	#	$aAbstract: The continuous expansion of textual data collection and dissemination has made text classification a crucial task for harnessing the massive amounts of digital text available today. Text classification aims to categorize a text document into one or more predefined categories within a specific application domain. Existing text classification approaches may be hindered when using just the bag-of-words model to represent features because it ignores word order and senses, which can vary depending on context. Word embeddings have recently emerged to address these limitations, allowing for significant performance improvements by condensing language knowledge into dense vectors. Furthermore, real-world entity relationships expressed in knowledge graphs can be condensed into dense vectors through knowledge embeddings. However, existing approaches do not fully leverage knowledge embeddings by failing to consider them in their models. Traditional text representation models are limited as they solely focus on words, lacking the ability to differentiate between documents that share the same vocabulary but offer different perspectives on a given subject. In this context, this work emerges in response to the diverse applications of automatic text classification. Additionally, it builds upon the potential of vector space representations and seeks to bridge the gap related to understanding the semantics present in natural language data. The primary goal of this study is to advance research in the field of Text Classification by incorporating semantic aspects into the representation of document collections. To achieve this, we propose OPHELIA, a Deep Neural Network (DNN) approach for text classification tasks using knowledge and word embeddings. OPHELIA exploits jointly trained embeddings of knowledge graphs and text. These embeddings can provide more consolidated contextual information than separate embeddings of text and knowledge, and their use for enhancing text classification has not been sufficiently explored yet. FastText is used to jointly train word and knowledge embeddings, allowing them to be consistently integrated into a single embedded space. The neural network used for OPHELIA is the Feedforward Neural Network and Capsule Network. This thesis first provides a comprehensive review of the literature on text classification using embeddings as features. Then, we describe the algorithms and architectures that constitute OPHELIA. We conduct experiments with different deep neural network models with varying numbers of hidden cells and hidden layers. Each architecture is evaluated with its optimal parameter combination to compare its performance with state-of-theart approaches. Our results demonstrate that OPHELIA outperforms existing approaches on the BBC dataset and remains competitive on AG News and Reuters-21578.
650 - Ponto de acesso secundário de assunto - Termo tópico	0	4	$aCiências da computação
650 - Ponto de acesso secundário de assunto - Termo tópico	0	4	$aClassificação
650 - Ponto de acesso secundário de assunto - Termo tópico	0	4	$aEmbedding
700 - Ponto de acesso secundário - Nome pessoal	1	#	$aFileto, Renato, $eorientador
710 - Ponto de acesso secundário - Entidade coletiva	2	#	$aUniversidade Federal de Santa Catarina. $bPrograma de Pós-Graduação em Ciência da Computação
856 - Localização e acesso eletrônicos	4	0	$zVersão integral em pdf $uhttps://bu.ufsc.br/teses/PGCC1246-T.pdf