Filtrar


Questões por página:
Uma equipe do Ministério Alfa conduz um projeto baseado em Big Data para entender o perfil de acesso da população a atividades financiadas com recursos federais. A base integra milhões de registros oriundos de plataformas digitais de ingressos, editais culturais, visitas a museus federais e interações nas redes sociais de equipamentos culturais.
Como a pesquisa ainda não tem uma variável-alvo definida, o objetivo inicial é identificar grupos latentes de usuários com padrões semelhantes de comportamento, considerando variáveis como frequência de participação, região e faixa etária. Após essa etapa, a equipe pretende avaliar os fatores que contribuem para o engajamento cultural em regiões com baixa participação e, por fim, recomendar estratégias de ampliação de acesso.
Considerando os modelos multivariados, a natureza da base de dados e os objetivos e etapas propostos para a pesquisa, a equipe responsável deveria:
A respeito das regras de associação e da análise de agrupamentos na exploração de dados, julgue o item subsequente.

O algoritmo k-means é um método de clusterização do tipo particional que requer a definição prévia do número de clusters e utiliza a média dos elementos como critério para a atualização dos centroides.
Uma pesquisa com estudantes e funcionários de uma universidade coletou as seguintes variáveis:

•  Categóricas: faixa etária (≤ 30,31–50, > 50 anos), gênero (masculino/feminino), diagnóstico de hipertensão (sim/não);
•  Numéricas: horas semanais de atividade física, média de pressão arterial.

Considerando a técnica estatística mais adequada para cada objetivo específico da análise, é correto afirmar que se deve usar
No campo da mineração de dados existem alguns problemas fundamentais que costumam aparecer com frequência em variados cenários de aplicação. O estudo desses problemas fornece ferramentas ao analista de dados que são aplicáveis em diferentes projetos de mineração de dados. Nesse conjunto se encontram os problemas de determinação de padrões, classificação de dados, segmentação de dados (clustering) e detecção de valores discrepantes (outliers).
Considerando os problemas citados, analise as afirmativas a seguir.

I. Em uma tabela binária esparsa, que representa uma base de dados de transações de clientes, em que as colunas representam cada produto e as linhas cada transação, verifica-se que, frequentemente, três das colunas apresentam simultaneamente o valor 1 para vários registros. Este tipo de análise é um problema de detecção de valores discrepantes.

II. A identificação de consumidores que são similares entre si, para uso no contexto de aplicação de promoções orientadas, constitui um problema de segmentação de dados.

III. O problema de classificação de dados pode ser considerado como supervisionado, pelo fato das relações entre as classes definidas e os demais atributos dos dados serem “aprendidas” pelo modelo.


Está correto o que se afirma em
Na Análise de Agrupamento, os grupos são formados com base em medidas de “proximidade - distância” ou “similaridade” entre os itens que podem ser representados por vetores aleatórios quando suas características são quantitativas. Os agrupamentos podem ser do tipo Aglomerativo Hierárquico e do tipo Não Hierárquico, sendo que Dendrograma do Método Aglomerativo Hierárquico pode ser feito usando