言語学的に妥当なCCGツリーバンク構築と評価

富田 朝, 谷中 瞳, 戸次 大介


Non-Peer-Reviewed 国内学会 Paper Slide

日本語 CCG パーザが日本語を正しく分析するためには、パーザの学習・評価に用いられる日本語CCGツリーバンクの言語学的妥当性を向上させる必要がある。しかし、既存の日本語 CCG ツリーバンクである日本語 CCGbank には誤った分析が含まれていることが指摘されており、日本語 CCG ツリーバンクの新たな構築アルゴリズムが提案されている。本研究では、CCG ツリーバンクを構築するアルゴリズムを実装し、特に複合動詞を含む文に対して正しい統語構造を出力できるようにアルゴリズムを改良した。さらに、13,653 文からなる日本語 CCGツリーバンクである lightblue CCGbank を構築し、ツリーバンクの統語構造と意味表示に対して、人手で評価を行った。