Filtrar


Questões por página:
Na era do big data, as empresas precisam utilizar repositórios e tecnologias para armazenamento, tratamento e análise desse grande volume de dados, dentre as quais, encontram-se:
Uma equipe de auditoria possui uma tabela de NF-e com mais de 1 bilhão de registros em um pyspark.sgl.DataFrame chamado df. A auditora deseja inspecionar apenas 1.000 registros localmente em seu notebook, usando funcionalidades avangadas de pandas para buscar inconsisténcias. Nesse cenário, a abordagem em PySpark mais apropriada para gerar esses registros em um pandas. DataFrame, minimizando o risco de estouro de memória no ambiente local é:
Uma Secretaria da Fazenda projeta um Data Lake para suportar fiscalização eletrônica, com ingestão diária de notas fiscais eletrônicas, conhecimentos eletrônicos de transporte de cargas, registros fiscais digitais entregues ao fisco, declarações do SIMPLES Nacional e recolhimentos. A equipe adota uma arquitetura em zonas (raw/bronze, refined/silver, curated/gold), com processos de ELT. Para o uso por auditores fiscais e cientistas de dados, a descrição mais adequada é que a zona raw/bronze

No que se refere a Big Data, julgue o seguinte item.


Value, pilar fundamental do Big Data, está relacionado à qualidade, à confiabilidade e à precisão dos dados, assim como à garantia de que esses dados não se tornem ruído.

Relacione a Coluna 1 com a Coluna 2 e assinale a alternativa que apresenta a sequência numérica correta.



Coluna 1 Ferramentas



1. Apache Spark


2. Apache Kafka


3. Power BI



Coluna 2 Descrição



( ) é um framework de computação distribuída de alta velocidade para processamento de Big Data.


( ) é uma plataforma de streaming de eventos distribuída, utilizada para construir pipelines de dados em tempo real.


( ) é uma ferramenta de Business Intelligence da Microsoft para visualização de dados e criação de dashboards interativos.



Assinale a alternativa que indica a sequência correta, de cima para baixo.