Loading...
5 results
Search Results
Now showing 1 - 5 of 5
- Seleção de atributos de dados inconsistentes em ambiente HDF5+Python na cloud INCDPublication . Apolónia, João; Cavique, LuísO tratamento de conjuntos de dados de grande dimensão é uma questão que é recorrente nos dias de hoje. Uma das abordagens possíveis passa por realizar uma seleção de atributos que permita diminuir, consideravelmente, a dimensão dos dados sem aumentar a inconsistência dos mesmos. A Análise Lógica de Dados Inconsistentes (LAID) é uma metodologia sistematizada, robusta, sendo fácil de interpretar e consegue lidar com dados inconsistentes. O paradigma, relativamente ao manuseamento de grandes volumes de dados, tem-se alterado. Antes, o tratamento dos dados era efetuado num único computador e o acesso era realizado depois do seu carregamento em memória. A tendência atual é aceder aos dados em disco, num ambiente cloud. Este trabalho pretende validar o novo paradigma, com recurso ao sistema de dados HDF5 e ao ambiente remoto disponibilizado pela. Pelo facto de o HDF5 ser o sistema adotado pela comunidade Python para lidar com dados de grande dimensão, esta linguagem foi escolhida para implementação do LAID.
- A feature selection approach in the study of azorean proverbsPublication . Cavique, Luís; Mendes, Armando B.; Funk, Matthias; Santos, Jorge M. A.A paremiologic (study of proverbs) case is presented as part of a wider project based on data collected among the Azorean population. Given the considerable distance between the Azores islands, we present the hypothesis that there are significant differences in the proverbs from each island, thus permitting the identification of the native island of the interviewee, based on his or her knowledge of proverbs. In this chapter, a feature selection algorithm that combines Rough Sets and the Logical Analysis of Data (LAD) is presented. The algorithm named LAID (Logical Analysis of Inconsistent Data) deals with noisy data, and we believe that an important link was established between the two different schools with similar approaches. The algorithm was applied to a real world dataset based on data collected using thousands of interviews of Azoreans, involving an initial set of twenty-two thousand Portuguese proverbs.
- Seleção de atributos usando LAID e sua implementação em sistemas de computação de alto desempenhoPublication . Morgado, Paulo; Cavique, LuísDo conjunto de técnicas de redução de dimensionalidade focamo-nos na seleção de atributos uma possível abordagem para a realizar é a utilização da Análise Lógica de Dados Inconsistentes (LAID). Recentemente vários estudos demostraram as suas potencialidades na resolução deste problema e evidenciaram as suas vantagens como uma metodologia robusta, de fácil interpretação e adicionalmente capaz de lidar com dados inconsistentes. Os mesmos estudos revelaram tempos de processamento acima do desejado para uma utilização plena e preconizaram a execução dos algoritmos através de processamento paralelo com recurso a computação de alto desempenho (HPC). Este trabalho representa mais um contributo nesse esforço ao abordar formas de armazenamento dos dados, soluções de paralelização dos algoritmos, configuração do ambiente HPC e finalmente os testes na Infraestrutura Nacional de Computação Distribuída (INCD) que permitiram extrair as conclusões apresentadas.
- A bi-objective feature selection algorithm for large omics datasetsPublication . Cavique, Luís; Mendes, Armando B.; Martiniano, Hugo F. M. C.; Correia, LuísFeature selection is one of the most important concepts in data mining when dimensionality reduction is needed. The performance measures of feature selection encompass predictive accuracy and result comprehensibility. Consistency based methods are a significant category of feature selection research that substantially improves the comprehensibility of the result using the parsimony principle. In this work, the bi-objective version of the algorithm Logical Analysis of Inconsistent Data is applied to large volumes of data. In order to deal with hundreds of thousands of attributes, heuristic decomposition uses parallel processing to solve a set covering problem and a cross-validation technique. The bi-objective solutions contain the number of reduced features and the accuracy. The algorithm is applied to omics datasets with genome-like characteristics of patients with rare diseases.
- A feature selection algorithm based on heuristic decompositionPublication . Cavique, Luís; Mendes, Armando B.; Martiniano, Hugo F. M. C.Feature selection is one of the most important concepts in data mining when dimensionality reduction is needed. The performance measures of feature selection encompass predictive accuracy and result comprehensibility. Consistency based feature selection is a significant category of feature selection research that substantially improves the comprehensibility of the result using the parsimony principle. In this work, the feature selection algorithm LAID, Logical Analysis of Inconsistent Data, is applied to large volumes of data. In order to deal with hundreds of thousands of attributes, a problem de-composition strategy associated with a set covering problem formulation is used. The algorithm is applied to artificial datasets with genome-like characteristics of patients with rare diseases.