APLICAÇÃO DO MÉTODO JRIP EM VARIADOS BANCOS DE DADOS

Autores

  • Ana Carolina Costa de Oliveira Centro Universitário UNIESP
  • Emanuelle Silva de Mélo Centro Universitário UNIESP
  • Thayana Rose de Araújo Dantas Centro Universitário UNIESP
  • Ronei Marcos de Moraes Centro Universitário UNIESP
  • Messias Rafael Batista Centro Universitário UNIESP
  • Marcelo Fernandes de Sousa Centro Universitário UNIESP

Resumo

Introdução: o algoritmo JRip é um método de classificação que utiliza poda incremental reduzida de erro, para proceder ao tratamento de todas as instâncias e se chegar a uma tomada de decisão baseando-se em regras, que, por sua vez, induz os dados de treinamento através de sequências lógicas. Objetivo: Analisar o comportamento do algoritmo JRip em bancos de dados com diferentes características. Metodologia:  uma investigação do tipo descritiva exploratória, na qual foram utilizados os Algoritmos de Fragmentação do Weka-Cross-Validation (Folds) e Percentage Split em dez bases de dados, a partir de critérios de classificação pré-estabelecidos para o processamento dos dados. Resultados: Por meio dessas rotas de análise, percebeu-se que o JRip obteve concordância quase perfeita com 50% dos bancos de dados. Desses, os que tiveram melhor taxa de acerto foram o Hypothyroid (99.34%), Nursery (96.84%) e Vote (95.63%). Os melhores resultados foram obtidos após o processamento dos dados com o Cross-Validation, enquanto, no Percentage Split, os resultados foram melhorando à medida que se aumentava o percentual. Mas, ainda assim, as alterações não foram satisfatórias para superar os resultados obtidos pelo Cross-Validoatin. Conclusões:  preconiza que o algoritmo JRip é um bom classificador para bancos da área da saúde. Porém, mais estudos envolvendo o método isolado precisam ser realizados para garantir a sua eficácia em múltiplos bancos de dados.

 

Palavras-chave: Banco de dados; Classificador; JRip; WEKA.    

Referências

BOHANEC, M.; RAJKOVIČ, V. DEX: An expert system shell for decision support. Sistemica, v. 1, n. 1, p. 145-157, 1990.

BORGES, A. P. Descoberta de Regras de Condução de Trens de Carga. 2009. Tese de Doutorado. Pontifícia Universidade Católica do Paraná.

BOUCKAERT, R. R. et al. WEKA---Experiences with a Java Open-Source Project. The Journal of Machine Learning Research, v. 11, p. 2533-2541, 2010.

CHRISTOPHER, J. J.; NEHEMIAH, H. K.; KANNAN, A. A swarm optimization approach for clinical knowledge mining. Computer methods and programs in biomedicine, v. 121, n. 3, p. 137-148, 2015.

COHEN, W. W. Fast effective rule induction. In: Machine learning proceedings 1995. Morgan Kaufmann, 1995. p. 115-123.

D'OTTAVIANO, I. M. L.; FEITOSA, H. A.. História da lógica e o surgimento das lógicas não clássicas. Coleção História da Matemática para Professores, SBHM/UNESP, v. 1, p. 01-66, 2009.

DOUBRAVSKY, K.; DOHNAL, M. Reconciliation of decision-making heuristics based on decision trees topologies and incomplete fuzzy probabilities sets. Plos One, v. 10, n. 7, p. e0131590, 2015.

EVALE, D. S. et al. Prediction model for students’ performance in Java programming with coursecontent recommendation system. In: Proceedings of 2016 Universal Technology Management Conference (UTMC). Minnesota, United States of America. 2016.

FAIZAL, M. A. et al. An analysis of system calls using J48 and jRip for malware detection. Journal of Theoretical & Applied Information Technology, v. 96, n. 13, 2018.

FORBELLONE, A. L. V.; EBERSPÄCHER, H. F. Lógica de programação: a construção de algoritmos e estruturas de dados. Editora Pearson Prentice Hall. 2021.

GOVADA, A. et al. Distributed multi-class rule-based classification using RIPPER. In: 2016 IEEE International Conference on Computer and Information Technology (CIT). IEEE, 2016. p. 303-309.

GUVENIR, H. A. et al. A supervised machine learning algorithm for arrhythmia analysis. In: Computers in Cardiology 1997. IEEE, 1997. p. 433-436.

GÜVENIR, H. A.; DEMIRÖZ, G.; ILTER, N. Learning differential diagnosis of erythemato-squamous diseases using voting feature intervals. Artificial intelligence in medicine, v. 13, n. 3, p. 147-165, 1998.

HALL, M. et al. The WEKA data mining software: an update. ACM SIGKDD explorations newsletter, v. 11, n. 1, p. 10-18, 2009.

KSHIRSAGAR, V.; JOSHI, M. Enhancing Intrusion Detection System by Reducing the False Positives through Application of Various Data Mining Techniques. International Journal of Computer Science and Information Security, v. 14, n. 2, p. 76, 2016.

KUMAR, V.; VELIDE, L.. A data mining approach for prediction and treatment ofdiabetes disease. Int J Sci Invent Today, v. 3, p. 73-9, 2014.

LAKMALI, K. B. N.; HADDELA, P. S. Effectiveness of rule-based classifiers in Sinhala text categorization. In: 2017 National Information Technology Conference (NITC). IEEE, 2017. p. 153-158.

LINS, E. M. V.; WEBBER, C. G.. Integração entre Bases de Casos e Machine Learning: Uma proposta de Help Desk Inteligente. Scientia cum Industria, v. 7, n. 2, p. 148-155, 2019.

MANIMARAN, R.; VANITHA, D. M. Novel approach to prediction of diabetes using classification mining algorithm. International Journal of Innovative Research in Science, Engineering and Technology, v. 6, n. 7, p. 14481-14487, 2017.

NAKAI, K.; KANEHISA, M.. A knowledge base for predicting protein localization sites in eukaryotic cells. Genomics, v. 14, n. 4, p. 897-911, 1992.

PARSANIA, V.; BHALODIYA, N.; JANI, N. N. Applying Naïve bayes, BayesNet, PART, JRip and OneR algorithms on hypothyroid database for comparative analysis. 2014.

QUINLAN, J. R. et al. Inductive knowledge acquisition: a case study. In: Proceedings of the Second Australian Conference on Applications of expert systems. 1987. p. 137-156.

RAJPUT, An. et al. J48 and JRIP rules for e-governance data. International Journal of Computer Science and Security (IJCSS), v. 5, n. 2, p. 201, 2011.

ROMÃO, W.. Descoberta de conhecimento relevante em banco de dados sobre ciência e tecnologia, Doutorado em engenharia de produção, Centro Tecnológico da Universidade Federal de Santa Catarina, SC, Brasil, 2002.

SCHLIMMER, J. C.. Concept acquisition through representational adjustment. University of California, Irvine, 1987.

SHESKIN, D. J. Hbook of Parametric NonparametricStatistical Procedures, Chapman Hall/CRC, Boca Raton, Florida. 2011.

SMITH, J. W. et al.. Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. In: Proceedings of the annual symposium on computer application in medical care. American Medical Informatics Association, 1988. p. 261.

SOCZEK, F. C.; ORLOVSKI, R.. Mineração de Dados: Conceitos e aplicação de algoritmos em uma Base de Dados na área da saúde. 2014.

SOUZA, P. B.. Uma estratégia baseada em algoritmos de mineração de dados para validar plano de operação de voo a partir de predições de estados dos satélites do INPE. São José dos Campos, SP, Brasil: INPE, 2011.

TARUN, I. M.; GERARDO, B. D.; TANGUILIG III, B. T.. Generating licensure examination performance models using PART and JRip classifiers: A data mining application in education. International Journal of Computer and Communication Engineering, v. 3, n. 3, p. 203, 2014.

WASEEM, S.; SALMAN, A.; MUHAMMAD, Asif Khan.. Feature subset selection using association rule mining and JRip classifier. International Journal of Physical Sciences, v. 8, n. 18, p. 885-896, 2013.

WITTEN, I. H.; FRANK, E.. Data mining: practical machine learning tools and techniques with Java implementations. Acm Sigmod Record, v. 31, n. 1, p. 76-77, 2002.

WOOLERY, L. et al. The use of machine learning program LERS-LB 2.5 in knowledge acquisition for expert system development in nursing. Computers in nursing, v. 9, n. 6, p. 227-234, 1991.

ZWITTER, M.; SOKLIC, M. Breast câncer data, Institute of Oncology, University Medical Centre Ljubljana, Yugoslavia. 1988.

Downloads

Publicado

2022-10-13

Edição

Seção

Artigos