Softmax Function

\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}

Converts logits to probability distribution over classes—sums to 1.

By Various

Information Sciences

Softmax Function

20th century · Various

Why it matters: Standard output layer for multi-class neural networks and transformers.

Discoverers: Various (20th century)

What does it mean?

Converts logits to probability distribution over classes—sums to 1.

Standard output layer for multi-class neural networks and transformers.

Symbol	Name	Unit	Meaning
$z_i$	Logit	—	Unnormalized score for class i
$softmax(z_i)$	Probability	—	Class probability

z=[2,1,0.1] → highest class gets ~65% probability.

Ask questions about equations and get answers grounded in the Equation Universe catalog.

Equation Universe

\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}

Real-world impact

Intelligent systems

Mathematics trains models that reshape work and creativity.

Photo: Unsplash — AI concept

Converts logits to probability distribution over classes—sums to 1.

equation-universe.vercel.app