論文読み RecipeGPT: Generative Pre-training Based Cooking recipe Generation and Evaluation System (2019)

1.論文の概要

新しいレシピの生成及び評価システムの研究。

  1. 与えられたタイトルと材料から手順の生成
  2. レシピのタイトルと手順から材料の抽出ができる。

pre-trained な GPT-2をファインチューニングして、レシピデータセットに適用したテキストベースな手法。

元論文:https://arxiv.org/abs/2003.02498

DEMO: https://recipegpt.org/

2. 問題設定と解決した点(先行研究と比べてどこが凄い?)

レシピのtext自動生成は、レシピ検索の制限を超えられる。レシピ生成はいままであまりなかった。この研究では、GPT-2を用いて、レシピの自動生成を行い、実際にサービスとして公開まで持っていった。

3. 技術や手法のキモ

手法:GPT-2のファインチューニング データセット:Recipe 1M data データの前処理:いくつかの材料を正規化(レシピでは材料が細かく書かれることが多いので、まとめる。)、料理に関係ない文章の削除。 Multi-Field Learning and Generation、材料のシャッフル、タイトル、bytepair encodeing + GPT-2

4. 主張の有効性検証

評価方法

Ingredient generation

F1 score between (正解ラベルと生成したラベル)

Instruction generation

BLUE, ROUGE(正解ラベルと生成したラベルで), NTED(normalized tree distance)

5. 議論すべき点

よくわからず、そもそもdiscussionがないんだけど。

6. 次に読むべき論文は?

ワトソン気になる

7. 関連研究

  • Generating Personalized Recipes from Historical User Preferences.
  • Inverse Cooking: Recipe generation from food images.
  • IBM Chef Watson: A big data approach to computational creativity: The curious case of Chef Watson.

8. 補足(Appendix)

GPT: SOTAの文章生成モデル
Byte Pair Encoding (BPE) :テキストの圧縮率を目的関数にして、貪欲的に分割を決定していくサブワード分割アルゴリズムです。
著者のブログ:https://medium.com/@audreyleduc/recipe-generation-with-gpt-2-37dd7c267ac6
NTED(normalized tree distance): INSERT, REMOVE, REPLACEを何回やったら一致するかの回数/全ノード数(リーベンシュタイン距離みたいなものか)
RecipeScape: An Interactive Tool for Analyzing Cooking Instructions at Scaleに詳細あり