Questões de Concurso

Uma equipe de auditoria possui uma tabela de NF-e com mais de 1 bilhão de registros em um pyspark.sgl.DataFrame chamado df. A auditora deseja inspecionar apenas 1.000 registros localmente em seu notebook, usando funcionalidades avangadas de pandas para buscar inconsisténcias. Nesse cenário, a abordagem em PySpark mais apropriada para gerar esses registros em um pandas. DataFrame, minimizando o risco de estouro de memória no ambiente local é:

(a)

pdf = df.toPandas ()

pdf_sample = pdf.sample (n=1000, random_state=42)

(b)

sample df = df.sample(False,0.001, seed=42)

pdf_sample = sample_df.toPandas()

(c)

pdf_sample = df.limit (1000).toPandas ()

(d)

rows = df.collect()

pdf_sample = pd.DataFrame (rows[:1000])

(e)

pdf_sample = spark.createDataFrame (df.head (1000)).toPandas ()