Projeto de Pesquisa: Desenvolvimento de Modernos Sistemas Integrados de Classificação e Decisão

João Luiz Kohl Moreira

Julho/2001

Resumo:

A proposta desse projeto é desenvolver e apresentar à comunidade brasileira um sistema completo de classificação e taxonomia baseados nos modernos sistemas de aprendizado, e de tomada de decisão robustos e gerais sendo ainda hoje alvo de pesquisas e de aperfeiçoamento. Refiro-me às chamadas redes neurais, lógica nebulosa e algorítmos genéticos. O objetivo é integrar essas três ferramentas em um sistema geral e robusto podendo serem aplicados não somente na circunscrição da astronomia, mas em, virtualmente, todas as atividades exploratórias. Pretende-se apresentar um sistema acabado e facilmente aplicável a qualquer sistema computacional disponível nas instituições brasileiras. Na medida que este projeto estiver sendo desenvolvido, espera-se acrescentar aprefeiçoamentos aos próprios métodos citados, cooperando-se, assim, para o próprio interesse científico de suas áreas em particular.

Introdução

Sistemas de decisão visando encontrar mecanismos classificadores confiáveis são cada vez mais necessários na astronomia moderna. Essa tendência se justifica pelo crescimento vertiginoso de informação sendo colocada em domínio público como resultado de numerosas missões de sondas espaciais, cobrindo vastos domínios observacionais, como também de um grande número de observações em telescópios em terra disponibilizados em forma de arquivos disponíveis aos usuários que os desejarem1. Outras indicações do aumento crescente de dados disponibilizados são os projetos, alguns já em andamento, dos chamados meta banco de dados e observatórios virtuais2. Todo esse manancial de dados traz o problema de tratar a informação, classificar os objetos de forma objetiva e automatizada. Por outro lado, existe o problema de estabelecer, objetivamente, critérios de classificação de objetos que, anteriormente, foram colocados de forma subjetiva. Exemplos significativos se encontram nos sistemas de classificação de galáxias, tais como o de Hubble. Critérios baseados, por exemplo, na forma dos objetos introduzem funções, muitas vezes, altamente não lineares. A proposta de trabalho aqui descrita visa acrescentar mais uma forma poderosa de imitar o observador em seu processo de identificação e classificação de maneira a que sejam colocadas à disposição da comunidade ferrametas que permitam lidar com essa crescente quantidade de informação.

Algorítmos de Classificação

Algorítmos de classificação possuem aplicação em vastas áreas de conhecimento e em virtualmente todas as ciências da natureza. Muitas são as áreas em que as classificações inauguraram suas atividades e não raro estas são feitas por humanos, sob critérios subjetivos, sem relação direta com a diversidade dos fenômenos ali estudados. Não obstante, essas classificações inaugurais desempenham papel fundamental na compreensão científica dos fenômenos estudados e vão impregnar, definitivamente, a área afim com suas características. Exemplos de classificações de suma importância, citamos a classificação das estrelas da via láctea segundo suas características espectrais, levada por E. Cannon, que desembocou em outra: o diagrama ``H-R'', assim chamado em homenagem a seus elaboradores: Herzprung e Russel. Outra classificação fundamental na astronomia é a classificação geral das galáxias, elaborada por Hubble. Todas essas foram organizadas segundo critérios que pouco tem a ver com as propriedades físicas comparadas entre objetos: no caso da classificação espectral das estrelas, deu-se atributos tais como estrelas do tipo ``A'', ``B'', etc. O diagrama ``H-R'' foi dividido entre estrelas do tipo ``early'' (precoce) e ``late'' (tardia). A idéia inicial foi que as do tipo ``early'' evoluiria para as do tipo ``late''.O mesmo fez Hubble: dividiu as galáxias segundo seu aspecto, classificação conhecida como ``morfológica'' e encadeou as galáxias numa sequência bifurcada em que uma galáxia do tipo ``early'', elíptica, ``evoluiria'' passando por graus maiores de ``espiralidade'', que ele definiu como ``late'', chegando nas irregulares. Como nas estrelas, viu-se, mais tarde, que esse encadeamento elaborado por Hubble pouco tem a ver com a evolução passiva das galáxias. Hoje, sabemos que as galáxias elípticas seriam, mais provavelmente, o resultado de ``fusões'' de galáxias menores. Num certo sentido, o caminho idealizado por Hubble seria o inverso do constatado posteriormente.

Evidentemente, os cenários imaginados pelos elaboradores das classificações estão distantes da compreensão que se tem, nos dias de hoje, das propriedades tanto das estrelas, quando das galáxias, mas essas ``tentativas'' foram de fundamental importância para se chegar ao conhecimento que se tem hoje acerca desses objetos. Isso porque as formas com que os objetos de estudo se relacionam entre si estão contidas no processo de classificação que vem a ser o primeiro passo para a compreensão da natureza em estudo.

O processo classificatório exige, no entanto, trabalho e dedicação prolongada de um ou mais pesquisadores, demandando, em muitos casos, anos a fio de aplicação quase exclusiva. Não há de se negar que os casos citados acima exigiram enormes esforços do pessoal envolvido e é certo que ainda hoje estamos vivendo processos de refinamentos dessas classificações. Outros processos classificatórios estão em andamento, malgrado iniciados há décadas. Entre eles destaca-se o processo de taxonomia dos asteróides.

Embora muitas vezes subjetiva, as classificações guardam complexidades importantes para a compreensão posterior do problema. Por isso o desenvolvimento de algorítmos de classificação consideram o ``aprendizado'', pois, em algum momento, será necessário que a intervenção humana seja feita, estabelecendo o critério de classificação, ou, em outras palavras, definindo o que classificar e quais os atributos classificadores. É comum verificar-se que as grandezas usadas para a classificação variam continuamente e torna-se difícil decidir onde colocar a fronteira entre duas classificações contíguas. Nesse contexto é que se inserem os algorítmos modernos de classificação, e que estão ganhando terreno nos campos da matemática, física, ciências atuárias, biológicas, etc: são baseados nos conceitos de realimentação e aprendizado, além da utilização da chamada lógica ``nebulosa''.

Temos visto o desenvolvimento das técnicas de redes neurais e suas aplicações nas mais diversas áreas das ciências, das finanças e gestão empresarial. A elas acrescentam-se a utilização da lógica ``nebulosa'' e dos algorítmos genéticos, em cujos fundamentos iremos nos concentrar nesse projeto. O estudo deste último tema não se faz sem que os primeiros sejam tratados, de forma que o desenvolvimento desse projeto vai exigir esforços nesses assuntos de forma integrada.

Algorítmos Cognitivos

Algorítmos cognitivos são aqueles capazes de aprender a tomar uma decisão. Entre eles, destaca-se o sistema conhecido por ``redes neurais''. Conhecido nos meios das neurociências por ``redes neurais artificiais'', é assim chamado por se propor a simular as redes neurais ``naturais'', isto é, reproduzir os processos que ocorrem nas malhas de neurônios presentes nos animais. Além dessas aplicações, as ditas redes neurais artificiais se prestam para base de mecanismos lógicos de decisão e classificação. O interesse nessa técnica é especial para aqueles que lidam com processos altamente não lineares, pois é possível atribuir parâmetros de aprendizado às redes neurais que as tornam capazes de traçar fronteiras ``quebradas'' e com muitas ``concavidades'' e linhas que, muitas vezes, são de difícil descrição analítica.

Lógica Nebulosa

Um grande avanço na teoria da decisão foi introduzida por Zadeh (1965, [11]) quando estabeleceu os fundamentos da ``lógica nebulosa''3. Criou-se uma técnica de decisão objetiva baseada em critérios subjetivos que é apropriada para reproduzir decisões tomadas por pessoas nas mais extensas áreas de atividade humana, tanto científica, quanto industrial e financeira. Com ela foi possível definir critérios de decisão baseados em conceitos como ``quente'', ``frio'', ``rápido'', ``lento'', ``muito brilhante'', ``escuro'', etc. Esses são conceitos subjetivos que estão relacionados a estados físico-ambientais em que os sentidos humanos são capazes, apenas, de atribuir um valor qualitativo. Estabelecendo as operações ``t''4 e ``S''5 entre conjuntos nebulosos, em oposição à lógica clássica de operação com os conjuntos crisp6 possibilitou-se que algorítmos fossem capazes de definir intervalos em que tais atributos subjetivos podem ser encaixados e se permitir que um sistema possa tomar uma decisão em cima desses atributos.

Na esteira do desenvolvimento, tanto das redes neurais, quanto da lógica nebulosa, foi proposta uma ferramenta que usou-se chamar ``algorítmos genéticos'', inicialmente desenvolvida por Holland (1975,[4]). Se de um lado, tem-se em mãos poderosas ferramentas de aprendizado como as redes neurais, além de critérios para que esse aprendizado seja definido, que é a lógica nebulosa, por outro lado, carece um sistema poderoso que permita o alinhamento do aprendizado que aponte no sentido de uma decisão final correta. Nesse aspecto, os algorítmos genéticos aparecem para tentar suprir essa necessidade de uma solução a contento.

Algorítmos Genéticos

Os Algorítmos genéticos têm sido aplicados em diferentes áreas da astronomia, tais como análise de séries temporais não lineares ([1]), estudo remoto de variáveis ambientais e controle remoto ([8]), interação entre galáxias e modelagem de órbitas ([10] e [9]), modelagem da corôa solar ([3]), análise de órbita de binárias e matéria interestelar ([6]), etc, indicando a potencialidade do método e a sua atualidade. Buscando a veiculação do método na astronomia e astrofísica, Charbonneau, 1995 ([2]) divulgou subrotinas simples em FORTRAN para aplicação em problemas quase lineares.

Algorítmos genéticos assim se chamam porque são inspirados no clássico trabalho de Darwin, ``A Origem das Espécies''. É sabido que os seres vivos estão permanentemente sendo colocados à prova pela sobrevivência. Como consequência, dois preceitos básicos governam a vida na terra: a preservação do indivíduo e a preservação da espécie, sendo um complementar ao outro. Um indivíduo somente sobrevive se ele é forte (e esperto) o suficiente para que não seja abatido por ``predadores'' ou inimigos. Contudo, após Mendel, com seus trabalhos a respeito de herança genética, sabemos que um indivíduo somente é forte (e esperto) se descende de uma boa linhagem de ``pais''. Bons indivíduos, fortes e espertos passarão para suas descendências essas suas qualidades garantindo a preservação de sua espécie. No entanto, o processo evolutivo é conseqüência de processos seletivos, não havendo qualquer característica determinística, segundo Darwin. Assim, o fortalecimento de uma espécie deriva não somente de sua herança genética como também de mutações que, teoricamente, são aleatórias. Se uma mutação traz ao indivíduo um fator de enfraquecimento, esse indivíduo estará condenado no que tange a sua sobrevivência ou no que tange à reprodução, ou a ambos. Dessa feita, são mantidas apenas as mutações que garantem o fortalecimento da espécie.

Assim são as bases do desenvolvimento dos algorítmos genéticos: estabelece-se um pseudo ``eco-sistema'' e nele quer-se ``alcançar'' um certo objetivo, por exemplo, achar qual o melhor trajeto para se chegar de um ponto a outro de uma cidade. Assim, determina-se o critério de ``sobrevivência'', isto é: sobrevivem os indivíduos que chegarem mais rápido. Dest'arte, ``povoa-se'' o sistema com uma certa quantidade de indivíduos dotados de certas características: uns vão a pé andando, outros correndo; uns de bicicleta, outros de carro; alguns pegam ônibus, etc. Os indivíduos também ganham qualidades diversas para ``escolher'' um caminho, uma direção e assim por diante. Todos esses atributos devem ser ``quantificáveis'', isto é, devem ser expressos numericamente. Uma vez definidos todos os parâmetros da ``disputa'', promove-se a primeira ``corrida''. Com o resultado na mão, ``matam-se'' os menos adaptados, promove-se um ``cruzamento'' entre os indivíduos sobreviventes e aplicam-se algumas mutações. Para promover o cruzamento, tem sido adotado o procedimento de agrupar, em bases binárias, os atributos numéricos dos indivíduos segundo um certo critério de codificação. Obtém-se, como conseqüência, uma ``palavra'' (string) para cada indivíduo, que seria o equivalente ao ``DNA'' de um ser vivo. Em seguida faz-se o ``casamento'' com outro indivíduo escolhendo-se, aleatoriamente, os fragmentos das ``palavras'' de cada um que serão permutados entre os indivíduos em cruzamento. Finalmente, aplicam-se algumas ``mutações'', mudando-se aleatoriamente alguns ``bits'' da ``palavra'' resultante e que definirá um ``filhote'', isto é, um novo indivíduo. As ``palavras'' são ``decodificadas'' para dar origem a um novo conjunto de parâmetros numéricos característicos dos indivíduos da nova geração. Pronta, a nova geração é submetida a uma nova corrida, repetindo-se o procedimento até que uma função ``alvo'' seja satisfeita.

Assim como o ``eco-sistema'' de indivíduos corendo para chegar a um outro ponto de uma cidade, pode-se construir o ``eco-sistema'' que se deseja desde que os atributos dos indivíduos sejam parametrizados numericamente. Pode-se construir experimentos, por exemplo, para se procurar mínimos e máximos de um função, seja ele contínua ou não. Em suma, os algorítmos genéticos podem ser aplicados em qualquer problema envolvendo optimização numérica. Sua vantagem é que não há restrição quanto à complexidade das funções matemáticas envolvidas. Sua limitação é que, via de regra, sua aplicação fica circunscrita ao domínio numérico, sendo inacessível a sua versão algébrica, sobretudo nos casos não lineares.

Integrando Soluções

Alguns autores iniciaram pesquisas integrando os algorítmos genéticos com as redes neurais ([1]) e lógica nebulosa ([7]) o que também é um indicativo no sentido da integração das modernas técnicas de decisão e controle.

Como vimos na Introdução, um dos problemas preementes na Astronomia moderna é encontrar ferramentas que sejam capazes de lidar com um extenso manancial de informação e a necessidade de classificá-la segundo critérios nem sembre tão objetivos quanto desejáveis. Necessário é, pois, desenvolver ferramentas computacionais que sejam capazes de executar a tarefa de,

  1. Comparar objetos segundo características numéricas,
  2. Classificar esses objetos sob critérios ``nebulosos'' pois subjetivos e não lineares,
  3. Que esssas ferramentas, uma vez validadas, sejam capazes de reproduzir, de forma recorrente, as mesmas tarefas diante de novas populações de objetos.
Nossa proposta é que a integração dos três métodos apresentados: redes neurais; lógica nebulosa e algorítmos genéticos, dê conta desse objetivos e cujos códigos fonte sejam colocados a disposição para livre distribuição e uso, facilitando, assim, sua aplicação nas áreas que se desejar.

As redes neurais, dotadas da capacidade de ``aprender'', estabelecerão os vínculos que indicarão o ``alvo'' a ser alcançado. A lógica nebulosa será capaz de lidar com o julgamento qualitativo ou subjetivo que a intervenção humana ``ensinará'' o sistema a fazer a distinção classificatória e, finalmente, os algorítmos genéticos funcionarão como o processo iterativo que permitirá optimizar o processo classificatório.

As caracterísitcas dessas ferramentas: independência do grau de linearidade; a capacidade de lidar com parâmetros qualitativos e um processo iterativo independente da complexidade do problema permitirão a sua aplicação em vastos domínios da astronomia e outras áreas do conhecimento e atividades investigativas. É objetivo desse projeto disponibilizar uma ferramenta poderosa para sistemas gerais de apoio à decisão, sendo aplicável em bancos de dados, sistemas de segurança, processos de automação e controle, etc.

O desenvolvimento dos programas e subrotinas será feito no equipamento da Coordenadoria de Astronomia e Astrofísica do Observatório Nacional. A linguagem de desenvolvimento será o ``C'' e, eventualmente, o ``Perl'' com interfaces gráficas para a apresentação dos resultados, no caso do sistema UNIX/LINUX. Quando for o caso de Windows 9x/ME, vai-se procurar a melhor interface de domínio público disponível.

A previsão para o desenvolvimento desse projeto é de 24 meses.

Referências Bibliográficas

1
T. Aikawa.
Nonlinear time-series analysis of pulsation of post-agb stars by genetic algorithm/neural network hybrid systems.
In ASP Conf. Ser. 203: IAU Colloq. 176: The Impact of Large-Scale Surveys on Pulsating Star Research, pages 135-136, 2000.

2
P. Charbonneau.
Genetic algorithms in astronomy and astrophysics.
ApJS, 101:309-334, December 1995.

3
S. E. Gibson and P. Charbonneau.
Empirical modeling of the solar corona using genetic algorithms.
J. Geophys. Res., 103:14511-14522, July 1998.

4
John H. Holland.
Adaptation in Natural and Artificial Systems.
Ann Arbor: The University of Michigan Press, 1975.

5
João Luiz Kohl-Moreira.
Um Banco de Dados para a Cosmologia Observacional.
PhD thesis, Observatório Nacional, 2000.

6
T. J. Lazio.
Genetic algorithms, pulsar planets, and ionized interstellar microturbulence.
PASP, 109:1068+, September 1997.

7
Sandra Sandri and Cláudia Correa.
Lógica nebulosa.
In V Escola de Redes Neurais, pages c073-c090, 1999.

8
J. P. Theiler, N. R. Harvey, S. P. Brumby, J. J. Szymanski, S. Alferink, S. J. Perkins, R. B. Porter, and J. J. Bloch.
Evolving retrieval algorithms with a genetic programming scheme.
Proc. SPIE, Imaging Spectrometry V, 3753:416-425, October 1999.

9
C. Theis and S. Harfst.
Modeling interacting galaxies using a parallel genetic algorithm.
In ASP Conf. Ser. 197: Dynamics of Galaxies: from the Early Universe to the Present, pages 357+, 2000.

10
M. Wahde.
A genetic algorithm for determining the orbits of interacting galaxies.
In ASSL Vol. 240: Numerical Astrophysics, pages 401+, 1999.

11
L. A. Zadeh.
Fuzzy sets.
Fuzzy Sets, Information and Control, (8):338-353, 1965.

About this document ...

Projeto de Pesquisa: Desenvolvimento de Modernos Sistemas Integrados de Classificação e Decisão

This document was generated using the LaTeX2HTML translator Version 99.2beta8 (1.42)

Copyright © 1993, 1994, 1995, 1996, Nikos Drakos, Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999, Ross Moore, Mathematics Department, Macquarie University, Sydney.

The command line arguments were:
latex2html -split 0 GenAlgo.tex

The translation was initiated by Joao Luiz Kohl Moreira on 2001-08-14


Footnotes

... desejarem1
Ver Capítulo II de [5].
... virtuais2
Ibid., Capítulo II e VI.
...''3
O termo ``nebulosa'' é tradução do inglês ``fuzzy''.
...''4
Generalização da operação intersecção.
...''5
Generalização da operação união.
...crisp6
Estabelece uma função de pertinência contínua no conjunto {0,1} em oposição à discreta, 0 ou 1.