🔙 Back to Top

Tue Aug 22 2017

計画

  1. [1704.07926] From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood
  2. [1706.05125] Deal or No Deal? End-to-End Learning for Negotiation Dialogues

提案テーマ

面白さ

ただこのゴールだと、NOP (なにも操作しない) といった単純な解釈に落ち着いてしまいそう (縮退). 単純のために発言はただただランダムなものをと考えてたが、言おうとしたことが在ってから、発言させることにする.

世界の状態を \(\mathrm{World}\) とする. 操作前の世界と後の世界の組みから発言をする.

生成系: \[G: \mathrm{World} \times \mathrm{World} \to Sentence\]

解釈系とはまさにこの逆写像に相当する: \[I: Sentence \to \mathrm{World} \to \mathrm{World}\]

学習方法

エージェントとして Aさんと Bさんとを用意する:

適用に用意した \(w_1, w_2 \in \mathrm{World}\) について、Aさんの発言 \(G_A(w_1, w_2)\) を生成する.

  1. 意図通りに自分自身が発言できていること
  2. 意図通りに相手が解釈してくれること