Base de dados em formato column store, é um caminho para executar queries analíticas em SQL. Algumas bases de dados já possuem funcionalidades que permitem esta utilização.
Por muitas vezes, em soluções de analytics, manter a solução simples traz bons resultados. Atualmente, as bases de dados relacionais representam uma grande fatia dos sistemas de armazenamento de dados, sendo extraídas a posteriori para data lakes ou outras soluções mais elaboradas com streaming, e processadas em Spark, Hives, Impalas e etc.
Soluções destas (column store), permite reaproveitar o RDBMS como repositório de consultas analíticas.
Podem consultar alguns links abaixo:
Em MariaDB, a funcionalidade de Column Store é baseada em um Storage Engine, que neste momento está na versão 1.0, no entanto, uma nova versão está a caminho.
Na imagem abaixo (retirada de uma apresentação da MariaDB), temos a arquitetura e funcionalidades do Column Store, em MariaDB:
No Docker Hub, há uma versão para que se possa testar, ver este link.
1) Imagem Docker:
2) Storage Engines disponíveis:
3) Pequeno teste:
Para validar a funcionalidade, utilizei um dataset disponível no Kaggle: Results from Running Events in Porto, Portugal.
Tabelas:
Tabelas & Storage Engine:
4) Um simples group by:
As melhores respostas são as simples! 🙂