Antlr based lexical analyzer¶

This is the mylexer/MyLexer.g4:

lexer grammar MyLexer;

@header {
    package mylexer;
}

KEYWORD: 'constant' | 'var' | 'function';
IDENT: [a-z]+;
NUMBER: [0-9](.[0-9]+)?;
OPEN_PAREN: '(';
CLOSE_PAREN: ')';
OPEN_BRACE: '{';
CLOSE_BRACE: '}';
SEMICOLON: ';';
OP: ('+' | '-' | '*' | '/');
EQ: '=';
WS: [ \t\r\n]+ -> skip;

Make sure we load the proper libraries.

Antlr runtime library
local package lookup in the current directory

@file:DependsOn("/data/shared/antlr-4.9.1-complete.jar")
@file:DependsOn(".")

@file:DependsOn("/data/shared/antlr-4.9.1-complete.jar")
@file:DependsOn(".")

import org.antlr.v4.runtime.*;
import mylexer.MyLexer;

import org.antlr.v4.runtime.*;
import mylexer.MyLexer;

Consider the same source code.

val source : String = 
    """
    constant pi = 3.1415;
    var radius = 10.4;
    var area = pi * square(radius);

    function square(x) {
      return x * x;
    }
    """.trimIndent()

val source : String = 
    """
    constant pi = 3.1415;
    var radius = 10.4;
    var area = pi * square(radius);

    function square(x) {
      return x * x;
    }
    """.trimIndent()

We can construct an ANTLRInputStream from the string object.

val input = ANTLRInputStream(source)

val input = ANTLRInputStream(source)

ANTLR has generated a lexer based on the lexer grammar file.

var lexer = MyLexer(input);

var lexer = MyLexer(input);

We can get the token stream, and populate it using the ANTLR common token stream API.

var tokens = CommonTokenStream(lexer);
tokens.fill()
print("There are:" + tokens.size() + " tokens")

There are:34 tokens

var tokens = CommonTokenStream(lexer);
tokens.fill()
print("There are:" + tokens.size() + " tokens")

There are:34 tokens

Let's print out the tokens.

for(i in 0 until tokens.size()) {
    val token = tokens.get(i)
    val typename = 
        if(token.type >= 0)
            lexer.tokenNames[token.type]
        else
            "EOF"
    println(typename + ":" + token.text)
}

KEYWORD:constant
IDENT:pi
'=':=
NUMBER:3.1415
';':;
KEYWORD:var
IDENT:radius
'=':=
NUMBER:1
NUMBER:0.4
';':;
KEYWORD:var
IDENT:area
'=':=
IDENT:pi
OP:*
IDENT:square
'(':(
IDENT:radius
')':)
';':;
KEYWORD:function
IDENT:square
'(':(
IDENT:x
')':)
'{':{
IDENT:return
IDENT:x
OP:*
IDENT:x
';':;
'}':}
EOF:<EOF>

for(i in 0 until tokens.size()) {
    val token = tokens.get(i)
    val typename = 
        if(token.type >= 0)
            lexer.tokenNames[token.type]
        else
            "EOF"
    println(typename + ":" + token.text)
}

KEYWORD:constant
IDENT:pi
'=':=
NUMBER:3.1415
';':;
KEYWORD:var
IDENT:radius
'=':=
NUMBER:1
NUMBER:0.4
';':;
KEYWORD:var
IDENT:area
'=':=
IDENT:pi
OP:*
IDENT:square
'(':(
IDENT:radius
')':)
';':;
KEYWORD:function
IDENT:square
'(':(
IDENT:x
')':)
'{':{
IDENT:return
IDENT:x
OP:*
IDENT:x
';':;
'}':}
EOF:<EOF>

Index

Building Lexer with ANTLR

ANTLR Lexical Grammar

split=4

split=4

split=4

Compilation

split=4

split=4

Using the generated lexer

4 Lexer With ANTLR

Antlr based lexical analyzer¶