feat: implement native empty2null spark inner function by kazantsev-maksim · Pull Request #4683 · apache/datafusion-comet

kazantsev-maksim · 2026-06-18T14:49:54Z

Which issue does this PR close?

Part of: #4670

Rationale for this change

Empty2Null is an internal Spark expression that converts an empty string "" into null. The logic is trivial: if the value is null or a zero-length string, it returns null; otherwise it returns the string unchanged.

Purpose
The function is applied during partitioned file writes (parquet, orc, etc.) — specifically to the partition columns. The reason is the correctness of Hive-style partitioning.

In Hive-style directory naming, an empty string and null are indistinguishable: both would produce a path like col1=, which is ambiguous and breaks reading the data back. To avoid this, Spark runs partition columns through Empty2Null before writing, so empty strings end up in the same default partition as null: col1=__HIVE_DEFAULT_PARTITION__

What changes are included in this PR?

How are these changes tested?

Add rust unit tests

This reverts commit 768b3e9.

comphead

Thanks @kazantsev-maksim can we investigate if this function can be implemented through codegen functions rather than native?

It doesn't seem to have intensive computations so codegen implementation should be fine I suppose. The example for codegen #4636

Kazantsev Maksim and others added 30 commits December 14, 2025 16:24

impl map_from_entries

768b3e9

Revert "impl map_from_entries"

c68c342

This reverts commit 768b3e9.

Merge branch 'apache:main' into main

d887555

Merge branch 'apache:main' into main

231aa90

Merge branch 'apache:main' into main

9500bbb

Merge branch 'apache:main' into main

9577481

Merge branch 'apache:main' into main

3791557

Merge branch 'apache:main' into main

7c2f082

Merge branch 'apache:main' into main

609a605

Merge branch 'apache:main' into main

a151b2c

Merge branch 'apache:main' into main

ad3e7f5

Merge branch 'apache:main' into main

ea92e4b

Merge branch 'apache:main' into main

8dfeca3

Merge branch 'apache:main' into main

559741e

Merge branch 'apache:main' into main

ebda14e

Merge branch 'apache:main' into main

408152e

Merge branch 'apache:main' into main

d7857b2

Merge branch 'apache:main' into main

aef41be

Merge branch 'apache:main' into main

5ac1c58

Merge branch 'apache:main' into main

9ae8e23

Merge branch 'apache:main' into main

5ca3888

Merge branch 'apache:main' into main

160a817

Merge branch 'apache:main' into main

88fc313

Merge branch 'apache:main' into main

e14c180

Merge branch 'apache:main' into main

610a885

Merge branch 'apache:main' into main

f8acb2c

Merge branch 'apache:main' into main

ec94897

Merge branch 'apache:main' into main

43405e4

Merge branch 'apache:main' into main

47b4915

Merge branch 'apache:main' into main

26e2682

kazantsev-maksim and others added 26 commits March 4, 2026 20:27

Merge branch 'apache:main' into main

6cb5f07

Merge branch 'apache:main' into main

ec194fb

Merge branch 'apache:main' into main

256fccb

Merge branch 'apache:main' into main

912c8f9

Merge branch 'apache:main' into main

561a664

Merge branch 'apache:main' into main

d926ef4

Merge branch 'apache:main' into main

671412c

Merge branch 'apache:main' into main

c9f52d1

Merge branch 'apache:main' into main

67f72d9

Merge branch 'apache:main' into main

314e594

Merge branch 'apache:main' into main

ac8292f

Merge branch 'apache:main' into main

c9c140e

Merge branch 'apache:main' into main

decca58

Merge branch 'apache:main' into main

0919b33

Merge branch 'apache:main' into main

7495e21

Merge branch 'apache:main' into main

0a37a60

Merge branch 'apache:main' into main

abbba84

Merge branch 'apache:main' into main

6020560

Merge branch 'apache:main' into main

e2bdfb1

Merge branch 'apache:main' into main

3edfc33

Merge branch 'apache:main' into main

a39e860

Merge branch 'apache:main' into main

e88dd7b

Merge branch 'apache:main' into main

3e29d37

Merge branch 'apache:main' into main

4068359

Merge branch 'apache:main' into main

a3cb8de

Feat: add empty2Null inner spark function

cfc751a

kazantsev-maksim changed the title ~~Empty2null~~ feat: implement native empty2null spark inner function Jun 18, 2026

Merge branch 'main' into empty2null

30a92c0

comphead reviewed Jun 18, 2026

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: implement native empty2null spark inner function#4683

feat: implement native empty2null spark inner function#4683
kazantsev-maksim wants to merge 57 commits into
apache:mainfrom
kazantsev-maksim:empty2null

kazantsev-maksim commented Jun 18, 2026 •

edited

Loading

Uh oh!

comphead left a comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

kazantsev-maksim commented Jun 18, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Which issue does this PR close?

Rationale for this change

What changes are included in this PR?

How are these changes tested?

Uh oh!

comphead left a comment

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

kazantsev-maksim commented Jun 18, 2026 •

edited

Loading