IonToParquet

IonToParquet

Certified

Convert an Ion file to the Parquet format.

yaml
type: io.kestra.plugin.serdes.parquet.IonToParquet

Examples

yaml
id: ion_to_parquet
namespace: company.team

tasks:
  - id: download_csv
    type: io.kestra.plugin.core.http.Download
    description: salaries of data professionals from 2020 to 2023 (source ai-jobs.net)
    uri: https://huggingface.co/datasets/kestra/datasets/raw/main/csv/salaries.csv

  - id: avg_salary_by_job_title
    type: io.kestra.plugin.jdbc.duckdb.Query
    inputFiles:
      data.csv: "{{ outputs.download_csv.uri }}"
    sql: |
      SELECT
        job_title,
        ROUND(AVG(salary),2) AS avg_salary
      FROM read_csv_auto('{{ workingDir }}/data.csv', header=True)
      GROUP BY job_title
      HAVING COUNT(job_title) > 10
      ORDER BY avg_salary DESC;
    store: true

  - id: result
    type: io.kestra.plugin.serdes.parquet.IonToParquet
    from: "{{ outputs.avg_salary_by_job_title.uri }}"
    schema: |
      {
        "type": "record",
        "name": "Salary",
        "namespace": "com.example.salary",
        "fields": [
          {"name": "job_title", "type": "string"},
          {"name": "avg_salary", "type": "double"}
        ]
      }

Properties

from *string

compressionCodec string

DefaultGZIP

Possible Values

UNCOMPRESSEDSNAPPYGZIPZSTD

dateFormat string

Defaultyyyy-MM-dd[XXX]

datetimeFormat string

Defaultyyyy-MM-dd'T'HH:mm[:ss][.SSSSSS][XXX]

decimalSeparator string

Default.

dictionaryPageSize integerstring

Default1048576

falseValues array

SubTypestring

Default["f","false","disabled","0","off","no",""]

inferAllFields booleanstring

Defaultfalse

nullValues array

SubTypestring

Default["","#N/A","#N/A N/A","#NA","-1.#IND","-1.#QNAN","-NaN","1.#IND","1.#QNAN","NA","n/a","nan","null"]

numberOfRowsToScan integerstring

Default100

onBadLines string

DefaultERROR

Possible Values

ERRORWARNSKIP

pageSize integerstring

Default1048576

parquetVersion string

DefaultV2

Possible Values

V1V2

rowGroupSize integerstring

Default134217728

schema string

strictSchema booleanstring

Defaultfalse

timeFormat string

DefaultHH:mm[:ss][.SSSSSS][XXX]

timeZoneId string

DefaultEtc/UTC

trueValues array

SubTypestring

Default["t","true","enabled","1","on","yes"]

Outputs

uri string

Formaturi

Metrics

records counter

Core Plugins and tasks

Tasks that provide Kestra's built-in orchestration, I/O, and observability capabilities.

Core

Grok

Kestra Plugin Transformation for Grok.

Data

IonToParquet Certified Convert an Ion file to the Parquet format.

More Plugins in this Category

Core Plugins and tasks

Grok

IonToParquet

Certified

Convert an Ion file to the Parquet format.