Flux.jl/src/backend/mxnet/model.jl

using Flux: batchone, rebatch

# MNet batches on last dimension
rebatch_last(xs) = permutedims(xs, (2:ndims(xs)..., 1))
rebatch_first(xs) = permutedims(xs, (ndims(xs), 1:ndims(xs)-1...))

paramvalue(p) = rebatch_last(p)
paramvalue(p::Flux.Param) = paramvalue(p.x)

# Basically a kludge to make Affine work
# Hopefully will go away with more inference
type AlterParam
  param::Flux.Param
  strip::Bool
  rebatch::Bool
end

function paramvalue(p::AlterParam)
  val = p.rebatch ? paramvalue(p.param) : p.param.x
  p.strip ? squeeze(val, 1) : val
end

type Graph
  node::mx.SymbolicNode
  params::Dict{Symbol,Any}
  stacks::Dict{Any,Any}
end

function mxparams(g::Graph)
  params = Dict{Symbol,mx.NDArray}()
  for (name, param) in g.params
    params[name] = mx.zeros(size(paramvalue(param)))
  end
  return params
end

type Model <: Flux.Model
  model::Any
  graph::Graph
  grads::Dict{Symbol,Any}
  exec::mx.Executor
end

function loadparams!(model::Model)
  for (name, arr) in model.exec.arg_dict
    haskey(model.graph.params, name) && copy!(arr, paramvalue(model.graph.params[name]))
  end
  return model
end

function mxnet(model::Flux.Model, input)
  graph = tograph(model, mx.Variable(:input))
  args  = merge(mxparams(graph), Dict(:input => mx.zeros(input)))
  grads = merge(mxparams(graph), Dict(:input => mx.zeros(input)))
  model = @mxerr graph.stacks Model(model, graph, grads,
                                    mx.bind(graph.node, args = args,
                                            args_grad = grads,
                                            grad_req = mx.GRAD_ADD))
  loadparams!(model)
  return model
end

function runmodel(model::Model, input)
  copy!(model.exec.arg_dict[:input], input)
  mx.forward(model.exec, is_train = true)
  copy(model.exec.outputs[1])
end

(m::Model)(x::Batch) = rebatch(rebatch_first(runmodel(m, rebatch_last(rawbatch(x)))))

(m::Model)(x) = first(m(batchone(x)))

tond(xs::AArray) = copy!(mx.zeros(size(xs)), xs)

function runback!(model::Model, Δ)
  model.grads[:input][:] = 0
  mx.backward(model.exec, tond(Δ))
  copy(model.grads[:input])
end

Flux.back!(m::Model, Δ::Batch, x) = rebatch(rebatch_first(runback!(m, rebatch_last(rawbatch(Δ)))))

Flux.back!(m::Model, Δ, x) = first(Flux.back!(m, batchone(Δ), x))

function Flux.update!(model::Model, η)
  for (arg, grad) in zip(model.exec.arg_arrays, model.exec.grad_arrays)
    mx.@nd_as_jl rw = (arg, grad) begin
      arg .-= grad .* η
      grad[:] = 0
    end
  end
  return model
end

# MX FeedForward interface

type SoftmaxOutput
  name::Symbol
end

graph(s::SoftmaxOutput, xs) = mx.SoftmaxOutput(xs, name = s.name)

function rewrite_softmax(model, name)
  model == softmax && return SoftmaxOutput(name)
  g = Flux.graph(model)
  (g == nothing || g.value ≠ softmax || DataFlow.nin(g) ≠ 1) && error("mx.FeedForward models must end with `softmax`")
  return Flux.Capacitor(vertex(SoftmaxOutput(name), g[1]))
end

function mx.FeedForward(model::Flux.Model; input = :data, label = :softmax, context = mx.cpu())
  model = rewrite_softmax(model, label)
  graph = tograph(model, mx.Variable(input), feedforward=true)
  ff = mx.FeedForward(graph.node, context = context)
  isempty(graph.params) || (ff.arg_params = mxparams(graph))
  return ff
end
mx batch semantics 2017-01-30 18:05:15 +00:00			`using Flux: batchone, rebatch`
basic mxnet backend 2017-01-28 17:02:49 +00:00
tweak param loading 2017-02-23 18:48:46 +00:00			`# MNet batches on last dimension`
			`rebatch_last(xs) = permutedims(xs, (2:ndims(xs)..., 1))`
			`rebatch_first(xs) = permutedims(xs, (ndims(xs), 1:ndims(xs)-1...))`

			`paramvalue(p) = rebatch_last(p)`
			`paramvalue(p::Flux.Param) = paramvalue(p.x)`

			`# Basically a kludge to make Affine work`
			`# Hopefully will go away with more inference`
			`type AlterParam`
			`param::Flux.Param`
			`strip::Bool`
			`rebatch::Bool`
			`end`

			`function paramvalue(p::AlterParam)`
			`val = p.rebatch ? paramvalue(p.param) : p.param.x`
			`p.strip ? squeeze(val, 1) : val`
			`end`

graph struct 2017-02-23 17:32:06 +00:00			`type Graph`
			`node::mx.SymbolicNode`
			`params::Dict{Symbol,Any}`
			`stacks::Dict{Any,Any}`
			`end`

tweak param loading 2017-02-23 18:48:46 +00:00			`function mxparams(g::Graph)`
			`params = Dict{Symbol,mx.NDArray}()`
			`for (name, param) in g.params`
			`params[name] = mx.zeros(size(paramvalue(param)))`
			`end`
			`return params`
			`end`

MXModel -> MX.Model 2017-01-30 18:05:05 +00:00			`type Model <: Flux.Model`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`model::Any`
graph struct 2017-02-23 17:32:06 +00:00			`graph::Graph`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`grads::Dict{Symbol,Any}`
			`exec::mx.Executor`
			`end`

MXModel -> MX.Model 2017-01-30 18:05:05 +00:00			`function loadparams!(model::Model)`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`for (name, arr) in model.exec.arg_dict`
tweak param loading 2017-02-23 18:48:46 +00:00			`haskey(model.graph.params, name) && copy!(arr, paramvalue(model.graph.params[name]))`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`end`
			`return model`
			`end`

MXModel -> MX.Model 2017-01-30 18:05:05 +00:00			`function mxnet(model::Flux.Model, input)`
graph struct 2017-02-23 17:32:06 +00:00			`graph = tograph(model, mx.Variable(:input))`
fix back pass 2017-02-23 21:06:46 +00:00			`args = merge(mxparams(graph), Dict(:input => mx.zeros(input)))`
			`grads = merge(mxparams(graph), Dict(:input => mx.zeros(input)))`
graph struct 2017-02-23 17:32:06 +00:00			`model = @mxerr graph.stacks Model(model, graph, grads,`
			`mx.bind(graph.node, args = args,`
			`args_grad = grads,`
			`grad_req = mx.GRAD_ADD))`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`loadparams!(model)`
			`return model`
			`end`

MXModel -> MX.Model 2017-01-30 18:05:05 +00:00			`function runmodel(model::Model, input)`
remove tond 2017-01-28 17:37:22 +00:00			`copy!(model.exec.arg_dict[:input], input)`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`mx.forward(model.exec, is_train = true)`
redundant 2017-01-29 11:28:22 +00:00			`copy(model.exec.outputs[1])`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`end`

get this somewhat working 2017-02-21 12:58:31 +00:00			`(m::Model)(x::Batch) = rebatch(rebatch_first(runmodel(m, rebatch_last(rawbatch(x)))))`
mx batch semantics 2017-01-30 18:05:15 +00:00
			`(m::Model)(x) = first(m(batchone(x)))`

fix back pass 2017-02-23 21:06:46 +00:00			`tond(xs::AArray) = copy!(mx.zeros(size(xs)), xs)`

			`function runback!(model::Model, Δ)`
			`model.grads[:input][:] = 0`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`mx.backward(model.exec, tond(Δ))`
redundant 2017-01-29 11:28:22 +00:00			`copy(model.grads[:input])`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`end`

fix back pass 2017-02-23 21:06:46 +00:00			`Flux.back!(m::Model, Δ::Batch, x) = rebatch(rebatch_first(runback!(m, rebatch_last(rawbatch(Δ)))))`

			`Flux.back!(m::Model, Δ, x) = first(Flux.back!(m, batchone(Δ), x))`

MXModel -> MX.Model 2017-01-30 18:05:05 +00:00			`function Flux.update!(model::Model, η)`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`for (arg, grad) in zip(model.exec.arg_arrays, model.exec.grad_arrays)`
			`mx.@nd_as_jl rw = (arg, grad) begin`
			`arg .-= grad .* η`
			`grad[:] = 0`
			`end`
			`end`
			`return model`
			`end`

			`# MX FeedForward interface`

			`type SoftmaxOutput`
			`name::Symbol`
			`end`

update for mxnet api 2017-02-23 16:58:10 +00:00			`graph(s::SoftmaxOutput, xs) = mx.SoftmaxOutput(xs, name = s.name)`
basic mxnet backend 2017-01-28 17:02:49 +00:00
			`function rewrite_softmax(model, name)`
			`model == softmax && return SoftmaxOutput(name)`
			`g = Flux.graph(model)`
fix mx.FeedForward 2017-02-20 19:35:32 +00:00			(g == nothing \|\| g.value ≠ softmax \|\| DataFlow.nin(g) ≠ 1) && error("mx.FeedForward models must end with `softmax`")
basic mxnet backend 2017-01-28 17:02:49 +00:00			`return Flux.Capacitor(vertex(SoftmaxOutput(name), g[1]))`
			`end`

MXModel -> MX.Model 2017-01-30 18:05:05 +00:00			`function mx.FeedForward(model::Flux.Model; input = :data, label = :softmax, context = mx.cpu())`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`model = rewrite_softmax(model, label)`
graph struct 2017-02-23 17:32:06 +00:00			`graph = tograph(model, mx.Variable(input), feedforward=true)`
			`ff = mx.FeedForward(graph.node, context = context)`
tweak param loading 2017-02-23 18:48:46 +00:00			`isempty(graph.params) \|\| (ff.arg_params = mxparams(graph))`
basic mxnet backend 2017-01-28 17:02:49 +00:00			`return ff`
			`end`