ENTREGAS DO PROJETO IS_Agro

Modulo Digital IS_Agro

Ambiente digital para cruzamento e análise de indicadores agro-socioambientais e de sustentabilidade envolvendo a obtenção e organização de dados multifontes, cálculo automático e disponibilização de índices e indicadores para avaliar a sustentabilidade da agricultura brasileira. Resultados de saída, métricas e indicadores são compartilhados e disponibilizados pelos sistemas de informação e comunicação do Ministério da Agricultura e Pecuária (MAPA). Para a consecução do objetivo explicitado, a Embrapa Solos, na qualidade de Instituição Descentralizada responsável, atua em conjunto com a Embrapa Agrobiologia, Embrapa Meio Ambiente e a Assessoria Internacional (ARIN/SGIRI), com a colaboração do Serviço Geológico do Brasil (SGB/CPRM). O estabelecimento do arcabouço conceitual e de requisitos funcionais (arquitetura computacional) do Módulo IS_Agro compreende:



1) Uma estrutura inovadora de banco de dados em uma arquitetura com três camadas e implementação de uma rotina periódica moderna e totalmente automática de coleta, tratamento e alocação de dados, em arquitetura medallion que visa organizar logicamente os dados, objetivando a melhora incremental e progressiva da estrutura e da qualidade dos dados à medida que fluem pelas três camadas, que são:


Bronze: dados brutos, adquiridos diretamente da fonte, mantendo o formato original;

Prata: dados “sanitizados”, verificando consistência dos dados, remodelagem da tabela e substituição de valores da chave primária. Dados são salvos em um servidor como parquet (formato aberto que armazena dados em coluna de forma muito compacta, diminuindo o espaço de armazenamento e com alta eficiência de processamento);

Ouro: dados calculados e prontos para publicação, armazenados em tabelas em um banco de dados PostgreSQL.

Toda a programação é realizada em python - a linguagem de programação mais utilizada para ciência de dados, e compartilhada por meio do GitHub - código base para a utilização dos scripts dos indicadores na plataforma Apache Airflow, plataforma de código aberto para desenvolvimento, agendamento e monitoramento de fluxos de trabalho. O ambiente de execução do Airflow foi estruturado em Docker e a imagem desenvolvida está disponibilizada no GitHub, permitindo mobilidade e flexibilidade em sua instalação. A coleta dos dados brutos se dá em forma de download com a manutenção do seu formato original. Esses dados são sanitizados e tratados. Ao final da fase prata, uma estrutura tabular verticalizada é salva no data lakehouse como parquet, formato de código aberto para armazenamento de alta compactação e recuperação eficiente de dados. Os parquet salvos ficam disponíveis para uso na camada ouro onde são aplicados cálculos diretos das tabelas tratadas para estimativa dos indicadores. Dados de nível ouro são exportados no PostgreSQL, prontos para uso por uma API que permita o fornecimento dos dados para o painel de dados (dashboards). Por fim, a compreensão do fluxo de dados será amplamente facilitada devido a simples e bem definida divisão de camadas da arquitetura.




2) Plataforma Tecnológica acoplada como módulo à plataforma Pronasolos. A plataforma web, de concepção moderna e enriquecida com recursos gráficos através de um sistema Web GIS, permite a visualização de mapas e a realização de análises gráficas e espaciais para o indicador de Risco de Erosão Hídrica do Brasil, obtido pelo método IS_Agro e para o mapeamento dos sistemas integrados de Lavoura-Pecuária (iLP) do MATOPIBA. A geração dos mapas em ambos os casos ocorre utilizando o Google Earth Engine para a produção de rasters e o cálculo das áreas por classe de erosão e do mapeamento da adoção de sistemas integrados (iPL) por município e por bacia hidrográfica, considerando a série histórica disponível. Os rasters serão renderizados e disponibilizados na plataforma para consulta em diferentes níveis e escalas. A criação de rasters e o uso de sistemas complexos para a análise, apresentação em mosaico e dados por município e por bacia hidrográfica está em desenvolvimento e tem conclusão prevista para os próximos 120 dias.


3) Painéis de Dados (dashboards) em ambiente web arcGIS disponibilizando índices e indicadores para a avaliação da eficiência agronômica e ambiental dos sistemas produtivos para o país e de forma discretizada por município ou estado, quando as fontes assim o permitirem.