Flux.jl/src/layers/stateless.jl

using NNlib: logsoftmax, logσ

# Cost functions

mse(ŷ, y) = sum((ŷ .- y).^2)/length(y)

function crossentropy(ŷ::AbstractVecOrMat, y::AbstractVecOrMat; weight = 1)
  @fix -sum(y .* log.(ŷ) .* weight) / size(y, 2)
end

@deprecate logloss(x, y) crossentropy(x, y)

function logitcrossentropy(logŷ::AbstractVecOrMat, y::AbstractVecOrMat; weight = 1)
  return -sum(y .* logsoftmax(logŷ) .* weight) / size(y, 2)
end

"""
    binarycrossentropy(ŷ, y; ϵ=eps(ŷ))

Return `-y*log(ŷ + ϵ) - (1-y)*log(1-ŷ + ϵ)`. The ϵ term provides numerical stability.

    julia> binarycrossentropy.(σ.([-1.1491, 0.8619, 0.3127]), [1, 1, 0.])
    3-element Array{Float64,1}:
    1.4244
    0.352317
    0.86167
"""
binarycrossentropy(ŷ, y; ϵ=eps(ŷ)) = -y*log(ŷ + ϵ) - (1 - y)*log(1 - ŷ + ϵ)

"""
    logitbinarycrossentropy(logŷ, y)

`logitbinarycrossentropy(logŷ, y)` is mathematically equivalent to `binarycrossentropy(σ(logŷ), y)`
but it is more numerically stable.

    julia> logitbinarycrossentropy.([-1.1491, 0.8619, 0.3127], [1, 1, 0.])
    3-element Array{Float64,1}:
     1.4244
     0.352317
     0.86167
"""
logitbinarycrossentropy(logŷ, y) = (1 - y)*logŷ - logσ(logŷ)

"""
    normalise(x::AbstractVecOrMat)

Normalise each column of `x` to mean 0 and standard deviation 1.
"""
function normalise(x::AbstractVecOrMat)
  μ′ = mean(x, 1)
  σ′ = std(x, 1, mean = μ′)
  return (x .- μ′) ./ σ′
end
-												use @ fix in a few places

											
										
										
											2018-03-01 16:31:20 +00:00
+								using NNlib: logsoftmax, logσ
-												mv numeric.jl to nnlib

											
										
										
											2017-11-09 15:03:57 +00:00
-												simplify organisation

											
										
										
											2017-08-19 19:52:29 +00:00
+								# Cost functions
-												better mse

											
										
										
											2017-08-24 10:40:51 +00:00
+								mse(ŷ, y) = sum((ŷ .- y).^2)/length(y)
-												simplify organisation

											
										
										
											2017-08-19 19:52:29 +00:00
-												use kwarg

											
										
										
											2017-12-13 15:27:15 +00:00
+								function crossentropy(ŷ::AbstractVecOrMat, y::AbstractVecOrMat; weight = 1)
-												fix gpu cross entropy

											
										
										
											2018-04-17 16:20:51 +00:00
+								  @fix -sum(y .* log.(ŷ) .* weight) / size(y, 2)
-												Add `weighted_crossentropy` for imbalanced classification problems

											
										
										
											2017-12-05 23:38:15 +00:00
+								end
-												rename crossentropy loss

											
										
										
											2017-10-17 16:36:18 +00:00
+								@deprecate logloss(x, y) crossentropy(x, y)
-												logit cross entropy

											
										
										
											2017-10-17 16:57:10 +00:00
-												Register back! for logsigmoid and implement (logit)binarycrossentropy

											
										
										
											2018-02-06 11:32:46 +00:00
+								function logitcrossentropy(logŷ::AbstractVecOrMat, y::AbstractVecOrMat; weight = 1)
 								  return -sum(y .* logsoftmax(logŷ) .* weight) / size(y, 2)
-												logit cross entropy

											
										
										
											2017-10-17 16:57:10 +00:00
+								end
-												adding layer normalization

											
										
										
											2017-10-10 20:33:37 +00:00
-												Register back! for logsigmoid and implement (logit)binarycrossentropy

											
										
										
											2018-02-06 11:32:46 +00:00
+								"""
-												Change epsilon value to eps(ŷ)

											
										
										
											2018-06-26 18:29:06 +00:00
+								    binarycrossentropy(ŷ, y; ϵ=eps(ŷ))
-												Register back! for logsigmoid and implement (logit)binarycrossentropy

											
										
										
											2018-02-06 11:32:46 +00:00
-												Added epsilon term to binarycrossentropy

											
										
										
											2018-06-26 17:43:16 +00:00
+								Return `-y*log(ŷ + ϵ) - (1-y)*log(1-ŷ + ϵ)`. The ϵ term provides numerical stability.
-												Register back! for logsigmoid and implement (logit)binarycrossentropy

											
										
										
											2018-02-06 11:32:46 +00:00
 								    julia> binarycrossentropy.(σ.([-1.1491, 0.8619, 0.3127]), [1, 1, 0.])
 -element Array{Float64,1}:
 .4244
 .352317
 .86167
 								"""
-												Overload Base.eps() for TrackedReal

											
										
										
											2018-06-27 05:55:43 +00:00
+								binarycrossentropy(ŷ, y; ϵ=eps(ŷ)) = -y*log(ŷ + ϵ) - (1 - y)*log(1 - ŷ + ϵ)
-												Register back! for logsigmoid and implement (logit)binarycrossentropy

											
										
										
											2018-02-06 11:32:46 +00:00
 								"""
 								    logitbinarycrossentropy(logŷ, y)
 								`logitbinarycrossentropy(logŷ, y)` is mathematically equivalent to `binarycrossentropy(σ(logŷ), y)`
 								but it is more numerically stable.
 								    julia> logitbinarycrossentropy.([-1.1491, 0.8619, 0.3127], [1, 1, 0.])
 -element Array{Float64,1}:
 .4244
 .352317
 .86167
 								"""
 								logitbinarycrossentropy(logŷ, y) = (1 - y)*logŷ - logσ(logŷ)
-												adding layer normalization

											
										
										
											2017-10-10 20:33:37 +00:00
+								"""
-												LayerNorm tweaks

											
										
										
											2017-10-23 11:53:07 +00:00
+								    normalise(x::AbstractVecOrMat)
-												adding layer normalization

											
										
										
											2017-10-10 20:33:37 +00:00
-												LayerNorm tweaks

											
										
										
											2017-10-23 11:53:07 +00:00
+								Normalise each column of `x` to mean 0 and standard deviation 1.
-												adding layer normalization

											
										
										
											2017-10-10 20:33:37 +00:00
+								"""
-												LayerNorm tweaks

											
										
										
											2017-10-23 11:53:07 +00:00
+								function normalise(x::AbstractVecOrMat)
 								  μ′ = mean(x, 1)
 								  σ′ = std(x, 1, mean = μ′)
 								  return (x .- μ′) ./ σ′
-												adding layer normalization

											
										
										
											2017-10-10 20:33:37 +00:00
+								end