Cocke-Younger-Kasami-Algorithmus

Der Cocke-Younger-Kasami-Algorithmus (CYK-Algorithmus) ist ein Algorithmus aus dem Gebiet der theoretischen Informatik. Mit ihm lässt sich feststellen, ob ein Wort zu einer bestimmten kontextfreien Sprache gehört. In der Fachsprache bezeichnet man dies als Lösen des Wortproblems für kontextfreie Sprachen. Mit Hilfe von Backtracking kann der Parse-Tree bzw. die Parse-Trees eines gegebenen Wortes der Sprache konstruiert werden. Um den Algorithmus anzuwenden, muss zu der vorgegebenen Sprache eine Grammatik in Chomsky-Normalform vorliegen. Der in den 1960er Jahren von Itiroo Sakai, John Cocke, Tadao Kasami, Jacob Schwartz und Daniel Younger unabhängig voneinander entwickelte Algorithmus nutzt das Prinzip der dynamischen Programmierung.

Beschreibung

Diese Beschreibung folgt Hopcroft/Ullman (1996).

Als Eingabe erhält der Algorithmus eine kontextfreie Grammatik G = ( N , T , P , S ) {\displaystyle G=(N,T,P,S)} in Chomsky-Normalform und das zu prüfende Wort w = w 1 w 2 w n T {\displaystyle w=w_{1}w_{2}\ldots w_{n}\in T^{*}} . Nun wird für jedes Teilwort w i , j := w i w i + j 1 {\displaystyle w_{i,j}:=w_{i}\ldots w_{i+j-1}} (d. h.: w i , j {\displaystyle w_{i,j}} fängt beim Index i {\displaystyle i} an und hat die Länge j {\displaystyle j} ) die Menge der Nichtterminale berechnet, die w i , j {\displaystyle w_{i,j}} erzeugen, bezeichnet durch V i , j {\displaystyle V_{i,j}} .

Gemäß dem Prinzip der dynamischen Programmierung werden erst die V i , j {\displaystyle V_{i,j}} für die kleinsten Teilwörter von w {\displaystyle w} berechnet, abgespeichert und dann zur somit effizienten Berechnung der nächstgrößeren Teilwörter weiterverwendet. Die kleinsten Teilwörter sind einzelne Buchstaben. Da die kontextfreie Grammatik in Chomsky-Normalform gegeben ist, kann jeder Buchstabe nur in genau einem Schritt von einem Nichtterminal abgeleitet werden.

Ein Nichtterminal einer Grammatik in Chomsky-Normalform kann in einem Schritt nicht auf mehrere Terminale abgeleitet werden. Daher kann ein Teilwort w i , j {\displaystyle w_{i,j}} , das mehr als nur ein Zeichen enthält, von A {\displaystyle A} nur über eine Regel ( A B C ) P {\displaystyle (A\rightarrow BC)\in P} erzeugt werden. Da Nichtterminale nicht das leere Wort (ε) erzeugen können, muss B {\displaystyle B} den linken und C {\displaystyle C} den rechten Teil von w i , j {\displaystyle w_{i,j}} erzeugen. Daraus folgt:

A V i , j k N , 1 k j 1 : ( A B C ) P B V i , k C V i + k , j k {\displaystyle A\in V_{i,j}\Leftrightarrow \exists k\in \mathbb {N} ,1\leq k\leq j-1:(A\rightarrow BC)\in P\land B\in V_{i,k}\land C\in V_{i+k,j-k}}

Mit anderen Worten: A {\displaystyle A} kann w i , j {\displaystyle w_{i,j}} erzeugen, wenn es gemäß der Produktionsregeln auf B C {\displaystyle BC} abgeleitet werden kann und B {\displaystyle B} und C {\displaystyle C} wiederum auf w i , k {\displaystyle w_{i,k}} und w i + k , j k {\displaystyle w_{i+k,j-k}} abgeleitet werden, also

A B C w i w i + k 1 C w i w i + k 1 w i + k w i + j 1 = w i , j {\displaystyle A\Rightarrow BC\Rightarrow ^{*}w_{i}\ldots w_{i+k-1}C\Rightarrow ^{*}w_{i}\ldots w_{i+k-1}w_{i+k}\ldots w_{i+j-1}=w_{i,j}} .

Das Wortproblem kann nun einfach entschieden werden: w {\displaystyle w} kann genau dann von der Grammatik erzeugt werden, wenn S V 1 , n {\displaystyle S\in V_{1,n}} gilt. In V 1 , n {\displaystyle V_{1,n}} liegen alle Variablen, die das Teilwort erzeugen können, das beim ersten Buchstaben anfängt und die Länge n {\displaystyle n} hat, also das ganze Wort.

Algorithmus

Aus der Beschreibung ergibt sich folgender Algorithmus:

Für i = 1 ... n
  Für jede Produktion 
  
    
      
        (
        l
        
        r
        )
        
        P
      
    
    {\displaystyle (l\rightarrow r)\in P}
  

    Falls r = 
  
    
      
        
          w
          
            i
          
        
      
    
    {\displaystyle w_{i}}
  

      Setze 
  
    
      
        
          V
          
            i
            ,
            1
          
        
        :=
        
          V
          
            i
            ,
            1
          
        
        
        {
        l
        }
      
    
    {\displaystyle V_{i,1}:=V_{i,1}\cup \{l\}}
  

Für j = 2 ... n
  Für i = 1 ... n - j + 1
    Für k = 1 ... j - 1
      Setze 
  
    
      
        
          V
          
            i
            ,
            j
          
        
        :=
        
          V
          
            i
            ,
            j
          
        
        
        {
        l
        
        N
        
        
        Y
        ,
        Z
        
        N
        :
        (
        l
        
        Y
        Z
        )
        
        P
        
        Y
        
        
          V
          
            i
            ,
            k
          
        
        
        Z
        
        
          V
          
            i
            +
            k
            ,
            j
            
            k
          
        
        }
      
    
    {\displaystyle V_{i,j}:=V_{i,j}\cup \{l\in N\mid \exists Y,Z\in N:(l\rightarrow YZ)\in P\land Y\in V_{i,k}\land Z\in V_{i+k,j-k}\}}
  

Falls 
  
    
      
        S
        
        
          V
          
            1
            ,
            n
          
        
      
    
    {\displaystyle S\in V_{1,n}}
  
, stoppe und gib "w wird von G erzeugt" aus
Stoppe und gib "w wird nicht von G erzeugt" aus

Beispiel

Die Fragestellung lautet, ob sich das Wort w = ( ) [ ( ) ] {\displaystyle w=()[()]} durch die Grammatik G = ( { S , T , U , A , B , C , D } , { ( , ) , [ , ] } , P , S ) {\displaystyle G=(\{S,T,U,A,B,C,D\},\{(,),[,]\},P,S)} erzeugen lässt. Die Produktionsregeln P {\displaystyle P} der Grammatik seien:

S A B C D A T C U S S {\displaystyle S\rightarrow AB\mid CD\mid AT\mid CU\mid SS}
T S B {\displaystyle T\rightarrow SB}
U S D {\displaystyle U\rightarrow SD}
A ( {\displaystyle A\rightarrow (}
B ) {\displaystyle B\rightarrow )}
C [ {\displaystyle C\rightarrow [}
D ] {\displaystyle D\rightarrow ]}

Den Algorithmus kann man mittels einer Tabelle durchführen. Dabei ist in der i {\displaystyle i} -ten Spalte und j {\displaystyle j} -ten Zeile V i , j {\displaystyle V_{i,j}} gespeichert, also die Menge der Nichtterminalsymbole, aus denen sich das Teilwort ableiten lässt, das beim Index i {\displaystyle i} anfängt und die Länge j {\displaystyle j} hat.

Es gilt w 1 = ( {\displaystyle w_{1}=(} , w 2 = ) {\displaystyle w_{2}=)} , w 3 = [ {\displaystyle w_{3}=[} , w 4 = ( {\displaystyle w_{4}=(} , w 5 = ) {\displaystyle w_{5}=)} , w 6 = ] {\displaystyle w_{6}=]} . Aus den Produktionsregeln A ( {\displaystyle A\rightarrow (} , B ) {\displaystyle B\rightarrow )} , C [ {\displaystyle C\rightarrow [} , D ] {\displaystyle D\rightarrow ]} folgt V 1 , 1 := { A } {\displaystyle V_{1,1}:=\{A\}} , V 2 , 1 := { B } {\displaystyle V_{2,1}:=\{B\}} , V 3 , 1 := { C } {\displaystyle V_{3,1}:=\{C\}} , V 4 , 1 := { A } {\displaystyle V_{4,1}:=\{A\}} , V 5 , 1 := { B } {\displaystyle V_{5,1}:=\{B\}} , V 6 , 1 := { D } {\displaystyle V_{6,1}:=\{D\}} . Das ergibt die erste Zeile der Tabelle:

V i , j {\displaystyle V_{i,j}} 1 2 3 4 5 6
1 {A} {B} {C} {A} {B} {D}

Nun wird für jedes V i , j {\displaystyle V_{i,j}} geprüft, ob es Produktionsregeln der Form l Y Z {\displaystyle l\rightarrow YZ} gibt, für die das Nichtterminalsymbol Y {\displaystyle Y} in derselben Spalte der Tabelle oberhalb von V i , j {\displaystyle V_{i,j}} liegt, das Nichtterminalsymbol Z {\displaystyle Z} in derselben Diagonalen rechts oberhalb von V i , j {\displaystyle V_{i,j}} liegt und außerdem Y V i , k {\displaystyle Y\in V_{i,k}} und Z V i , k {\displaystyle Z\in V_{i,k}} gilt. Aus der Produktionsregel S A B {\displaystyle S\rightarrow AB} und den Einträgen A V 1 , 1 {\displaystyle A\in V_{1,1}} , B V 2 , 1 {\displaystyle B\in V_{2,1}} , A V 4 , 1 {\displaystyle A\in V_{4,1}} , B V 5 , 1 {\displaystyle B\in V_{5,1}} der ersten Zeile folgt V 1 , 2 := { S } {\displaystyle V_{1,2}:=\{S\}} , V 1 , 4 := { S } {\displaystyle V_{1,4}:=\{S\}} . Das ergibt die zweite Zeile der Tabelle:

V i , j {\displaystyle V_{i,j}} 1 2 3 4 5 6
1 {A} {B} {C} {A} {B} {D}
2 {S} {} {} {S} {}

Aus den Produktionsregeln U S D {\displaystyle U\rightarrow SD} , S C U {\displaystyle S\rightarrow CU} , S S S {\displaystyle S\rightarrow SS} und den schon jeweils oberhalb vorhandenen Nichtterminalsymbolen ergeben sich die weiteren Zeilen der Tabelle:

V i , j {\displaystyle V_{i,j}} 1 2 3 4 5 6
1 {A} {B} {C} {A} {B} {D}
2 {S} {} {} {S} {}
3 {} {} {} {U}
4 {} {} {S}
5 {} {}
6 {S}

Da S V 1 , 6 {\displaystyle S\in V_{1,6}} , lässt sich das gegebene Wort w = ( ) [ ( ) ] {\displaystyle w=()[()]} unter der Grammatik G {\displaystyle G} aus S {\displaystyle S} ableiten.

Eine Linksableitung des Wortes w {\displaystyle w} wäre demnach:

S S S A B S ( B S ( ) S ( ) C U ( ) [ U ( ) [ S D ( ) [ A B D ( ) [ ( B D ( ) [ ( ) D ( ) [ ( ) ] = w {\displaystyle S\Rightarrow SS\Rightarrow ABS\Rightarrow (BS\Rightarrow ()S\Rightarrow ()CU\Rightarrow ()[U\Rightarrow ()[SD\Rightarrow ()[ABD\Rightarrow ()[(BD\Rightarrow ()[()D\Rightarrow ()[()]=w}

Also ist w {\displaystyle w} ein Wort der Sprache L ( G ) {\displaystyle L(G)} .

Komplexität

Der Cocke-Younger-Kasami-Algorithmus entscheidet in der Zeit O ( n 3 ) {\displaystyle {\mathcal {O}}\left(n^{3}\right)} , ob ein Wort der Länge n {\displaystyle n} in der Sprache L ( G ) {\displaystyle L(G)} liegt (vgl. Landau-Symbole zur Beschreibung der Notation). Dabei wird Speicherplatz in der Größenordnung O ( n 2 ) {\displaystyle {\mathcal {O}}\left(n^{2}\right)} benötigt, denn jeder Eintrag V i , j {\displaystyle V_{i,j}} der Tabelle benötigt Speicherplatz der Größenordnung O ( 1 ) {\displaystyle {\mathcal {O}}\left(1\right)} . Die Effizienz hängt entscheidend vom Algorithmus für die Chomsky-Normalform ab, denn nur dann kann der CYK-Algorithmus verwendet werden.[1][2]

Es gibt asymptotisch schnellere Algorithmen. Graham, Harrison und Ruzzo geben eine Variante des Earley-Algorithmus an. Er hat eine Laufzeit von O ( g n 3 / log ( n ) ) {\displaystyle {\mathcal {O}}\left(gn^{3}/\log(n)\right)} . Rytter modifiziert diesen Algorithmus weiter und verbessert die Abhängigkeit von der Wortlänge auf O ( n 3 / log ( n ) ) {\displaystyle {\mathcal {O}}\left(n^{3}/\log(n)\right)} . Aber Valiants Parsing-Methode, die die Berechnungen des Cocke-Younger-Kasami-Algorithmus neu organisiert, ist die asymptotisch schnellste bekannte. Die Worst-Case-Laufzeit für eine kontextfreie Grammatik in Chomsky-Normalform ist proportional zur Laufzeit für die Multiplikation von zwei booleschen n × n {\displaystyle n\times n} -Matrixen. Der schnellste derzeit bekannte Algorithmus für die Matrizenmultiplikation ist eine Variante des Coppersmith-Winograd-Algorithmus, der eine Laufzeit von etwa O ( n 2,376 ) {\displaystyle {\mathcal {O}}\left(n^{2{,}376}\right)} hat.[3]

Literatur

  • Itiroo Sakai: Syntax in universal translation. In: 1961 International Conference on Machine Translation of Languages and Applied Language Analysis. Her Majesty’s Stationery Office, London 1962, S. 593–608 (mt-archive.info [PDF]). 
  • Tadao Kasami: An Efficient Recognition and Syntax-Analysis Algorithm for Context-Free Languages. Air Force Cambridge Research Lab, Bedford 11. Juni 1965 (Scientific report AFCRL-65-758). 
  • Daniel H. Younger: Recognition and parsing of context-free languages in time . In: Information and Control. Band 10, Nr. 2, 1967, S. 189–208. 
  • John Cocke, Jacob T. Schwartz: Programming languages and their compilers. Preliminary notes. Courant Institute of Mathematical Sciences of New York University, New York 1970. 
  • John E. Hopcroft, Jeffrey D. Ullman: Einführung in die Automatentheorie, Formale Sprachen und Komplexitätstheorie. 3. Auflage. Addison-Wesley, Bonn 1996, S. 148–149 (1. Nachdruck). 
  • Dick Grune, Ceriel J. H. Jacobs: Parsing Techniques. A Practical Guide. 1. Auflage. Ellis Horwood, New York 1990, ISBN 0-13-651431-6, S. 81–104 ([1] [PDF; 1,9 MB]). 
  • Interaktives Applet zur Demonstration des CYK-Algorithmus
  • Freie Python-Implementierung des CYK-Algorithmus
  • David Rodriguez-Velazquez, University of California: The CYK Algorithm
  • educative.io: What is the CYK algorithm?

Einzelnachweise

  1. Laura Kallmeyer, Heinrich-Heine-Universität Düsseldorf: Cocke Younger Kasami (CYK)
  2. Alexander Koller: The CKY Parser
  3. Lillian Lee, Department of Computer Science, Cornell University: Fast Context-Free Grammar Parsing Requires Fast Boolean Matrix Multiplication