Identificar minerais é algo bem complicado.
Com informações de TechXplore.
A identificação de minerais é um problema complexo e demorado para os geólogos, muitas vezes levando de 30 minutos a vários dias por amostra. Para complicar ainda mais a situação está o facto de uma porção suficiente de minerais permanecer inadequadamente pesquisada, deixando-nos com apenas algumas centenas caracterizadas de forma abrangente dos 6.000 minerais atualmente identificados.
O diagnóstico visual de minerais e rochas é uma prática muito difundida em geologia, porque é muito mais barato e rápido do que outros métodos, como espectroscopia e análise química. No entanto, é demorado e menos preciso em comparação com métodos mais caros. Mesmo mineralogistas experientes podem cometer erros ao trabalhar com materiais raros ou amostras de baixa qualidade. Incorporar inteligência de máquina nesse processo pode ajudar na identificação de erros e reduzir o tempo gasto em tarefas rotineiras por especialistas.
Apesar da pesquisa em andamento nesta área, falta um benchmarking claro para análise de imagens minerais na literatura científica. Para colmatar esta lacuna, o Instituto de Investigação em Inteligência Artificial, em colaboração com a Sber AI e a Universidade Estatal de Moscovo Lomonosov, criou um conjunto de dados de referência para modelos de visão computacional focados no reconhecimento mineral.
Chamamos o conjunto de dados de MineralImage5k. É baseado no acervo do museu mineralógico Fersman e contém 44 mil amostras. Embora menor que o conjunto de dados Mindat, MineralImage5k oferece maior homogeneidade de condições fotográficas e consiste em amostras não processadas que se assemelham muito a minerais naturais.
O conjunto de dados MineralImage5k é dividido em três subconjuntos de complexidade variada, desafiando os pesquisadores em classificação mineral, segmentação e estimativa de tamanho. A tarefa de classificação mais simples apresentada no benchmark contém dez espécies minerais com pelo menos 462 exemplos por espécie. O problema mais complicado é classificar os minerais em classes de 5K com apenas uma imagem por classe disponível.
Um problema que a IA pode enfrentar ao trabalhar com fotos de um mineral é qual parte da rocha apresentada é um mineral real de interesse. Para resolver esse problema, compartilhamos um conjunto separado de cerca de 100 imagens com rótulos adicionais e a tarefa de segmentação além da classificação. A integração da tarefa de segmentação no pipeline de classificação pode fornecer insights adicionais nos casos em que o modelo comete erros e reduzir o número de tais situações.
Além da classificação e segmentação, estudamos a estimativa do tamanho mineral zero-shot. A estimativa automática do tamanho dos espécimes pode ser muito útil para procedimentos de armazenamento de espécimes em museus. Tendo estes dados para todas as amostras, podemos planejar o sistema de armazenamento ideal e comprar ou fabricar caixas do tamanho certo na quantidade correta. Portanto, fornecemos mais de 18 mil amostras rotuladas para a tarefa de regressão em nosso benchmark.
Para demonstrar a eficácia do benchmark, avaliamos um modelo de linguagem de visão pré-treinado em dados de domínio geral. Descobrimos que o ajuste fino do modelo no conjunto de dados específico do domínio, como MineralImage5k, pode melhorar significativamente sua precisão. Destacamos também o potencial promissor da avaliação de conjuntos de dados cruzados para avaliar modelos de reconhecimento mineral.
Nossa pesquisa foi publicada na revista Computers & Geosciences. Estamos felizes em ajudar com o uso do conjunto de dados e do benchmark e convidamos todos os pesquisadores interessados a compartilhar suas ideias sobre como torná-los mais úteis para a comunidade.
Esta história faz parte do Science X Dialog , onde os pesquisadores podem relatar as descobertas de seus artigos de pesquisa publicados. Visite esta página para obter informações sobre o ScienceX Dialog e como participar.
Mais informações: Sergey Nesteruk et al, MineralImage5k: A benchmark for zero-shot raw mineral visual recognition and description, Computers & Geosciences (2023). DOI: 10.1016/j.cageo.2023.105414