xref: /OpenGrok/opengrok-indexer/src/main/jflex/analysis/haskell/HaskellSymbolTokenizer.lex (revision d219b4cea555a12b602d2d5518daa22134ad4879)
1*d219b4ceSAdam Hornacek /*
2*d219b4ceSAdam Hornacek  * CDDL HEADER START
3*d219b4ceSAdam Hornacek  *
4*d219b4ceSAdam Hornacek  * The contents of this file are subject to the terms of the
5*d219b4ceSAdam Hornacek  * Common Development and Distribution License (the "License").
6*d219b4ceSAdam Hornacek  * You may not use this file except in compliance with the License.
7*d219b4ceSAdam Hornacek  *
8*d219b4ceSAdam Hornacek  * See LICENSE.txt included in this distribution for the specific
9*d219b4ceSAdam Hornacek  * language governing permissions and limitations under the License.
10*d219b4ceSAdam Hornacek  *
11*d219b4ceSAdam Hornacek  * When distributing Covered Code, include this CDDL HEADER in each
12*d219b4ceSAdam Hornacek  * file and include the License file at LICENSE.txt.
13*d219b4ceSAdam Hornacek  * If applicable, add the following below this CDDL HEADER, with the
14*d219b4ceSAdam Hornacek  * fields enclosed by brackets "[]" replaced with your own identifying
15*d219b4ceSAdam Hornacek  * information: Portions Copyright [yyyy] [name of copyright owner]
16*d219b4ceSAdam Hornacek  *
17*d219b4ceSAdam Hornacek  * CDDL HEADER END
18*d219b4ceSAdam Hornacek  */
19*d219b4ceSAdam Hornacek 
20*d219b4ceSAdam Hornacek /*
21*d219b4ceSAdam Hornacek  * Copyright (c) 2015, 2021, Oracle and/or its affiliates. All rights reserved.
22*d219b4ceSAdam Hornacek  * Portions Copyright (c) 2017, Chris Fraire <cfraire@me.com>.
23*d219b4ceSAdam Hornacek  */
24*d219b4ceSAdam Hornacek 
25*d219b4ceSAdam Hornacek /*
26*d219b4ceSAdam Hornacek  * Get Haskell symbols
27*d219b4ceSAdam Hornacek  */
28*d219b4ceSAdam Hornacek 
29*d219b4ceSAdam Hornacek package org.opengrok.indexer.analysis.haskell;
30*d219b4ceSAdam Hornacek 
31*d219b4ceSAdam Hornacek import java.io.IOException;
32*d219b4ceSAdam Hornacek import org.opengrok.indexer.analysis.JFlexSymbolMatcher;
33*d219b4ceSAdam Hornacek 
34*d219b4ceSAdam Hornacek /**
35*d219b4ceSAdam Hornacek  * @author Harry Pan
36*d219b4ceSAdam Hornacek  */
37*d219b4ceSAdam Hornacek %%
38*d219b4ceSAdam Hornacek %public
39*d219b4ceSAdam Hornacek %class HaskellSymbolTokenizer
40*d219b4ceSAdam Hornacek %extends JFlexSymbolMatcher
41*d219b4ceSAdam Hornacek %unicode
42*d219b4ceSAdam Hornacek %int
43*d219b4ceSAdam Hornacek %include ../CommonLexer.lexh
44*d219b4ceSAdam Hornacek %char
45*d219b4ceSAdam Hornacek %{
46*d219b4ceSAdam Hornacek     private int nestedComment;
47*d219b4ceSAdam Hornacek 
reset()48*d219b4ceSAdam Hornacek     public void reset() {
49*d219b4ceSAdam Hornacek         super.reset();
50*d219b4ceSAdam Hornacek         nestedComment = 0;
51*d219b4ceSAdam Hornacek     }
52*d219b4ceSAdam Hornacek %}
53*d219b4ceSAdam Hornacek 
54*d219b4ceSAdam Hornacek %state STRING CHAR COMMENT BCOMMENT
55*d219b4ceSAdam Hornacek 
56*d219b4ceSAdam Hornacek %include ../Common.lexh
57*d219b4ceSAdam Hornacek %include Haskell.lexh
58*d219b4ceSAdam Hornacek %%
59*d219b4ceSAdam Hornacek 
60*d219b4ceSAdam Hornacek <YYINITIAL> {
61*d219b4ceSAdam Hornacek     {Identifier} {
62*d219b4ceSAdam Hornacek         String id = yytext();
63*d219b4ceSAdam Hornacek         if (!Consts.kwd.contains(id)) {
64*d219b4ceSAdam Hornacek             onSymbolMatched(id, yychar);
65*d219b4ceSAdam Hornacek             return yystate();
66*d219b4ceSAdam Hornacek         }
67*d219b4ceSAdam Hornacek     }
68*d219b4ceSAdam Hornacek     {Number}    {}
69*d219b4ceSAdam Hornacek     \"   { yybegin(STRING);   }
70*d219b4ceSAdam Hornacek     \'   { yybegin(CHAR);     }
71*d219b4ceSAdam Hornacek     "--" { yybegin(COMMENT);  }
72*d219b4ceSAdam Hornacek 
73*d219b4ceSAdam Hornacek     {NotComments}    {}
74*d219b4ceSAdam Hornacek }
75*d219b4ceSAdam Hornacek 
76*d219b4ceSAdam Hornacek <STRING> {
77*d219b4ceSAdam Hornacek     \\[\"\\]    {}
78*d219b4ceSAdam Hornacek     \"   { yybegin(YYINITIAL); }
79*d219b4ceSAdam Hornacek }
80*d219b4ceSAdam Hornacek 
81*d219b4ceSAdam Hornacek <CHAR> {    // we don't need to consider the case where prime is part of an identifier since it is handled above
82*d219b4ceSAdam Hornacek     \\[\'\\]    {}
83*d219b4ceSAdam Hornacek     \'   { yybegin(YYINITIAL); }
84*d219b4ceSAdam Hornacek }
85*d219b4ceSAdam Hornacek 
86*d219b4ceSAdam Hornacek <COMMENT> {
87*d219b4ceSAdam Hornacek     {EOL}    { yybegin(YYINITIAL); }
88*d219b4ceSAdam Hornacek }
89*d219b4ceSAdam Hornacek 
90*d219b4ceSAdam Hornacek <YYINITIAL, BCOMMENT> {
91*d219b4ceSAdam Hornacek     "{-"    {
92*d219b4ceSAdam Hornacek         if (nestedComment++ == 0) {
93*d219b4ceSAdam Hornacek             yybegin(BCOMMENT);
94*d219b4ceSAdam Hornacek         }
95*d219b4ceSAdam Hornacek     }
96*d219b4ceSAdam Hornacek }
97*d219b4ceSAdam Hornacek 
98*d219b4ceSAdam Hornacek <BCOMMENT> {
99*d219b4ceSAdam Hornacek     "-}"    {
100*d219b4ceSAdam Hornacek         if (--nestedComment == 0) {
101*d219b4ceSAdam Hornacek             yybegin(YYINITIAL);
102*d219b4ceSAdam Hornacek         }
103*d219b4ceSAdam Hornacek     }
104*d219b4ceSAdam Hornacek }
105*d219b4ceSAdam Hornacek 
106*d219b4ceSAdam Hornacek // fallback
107*d219b4ceSAdam Hornacek {WhspChar}+ |
108*d219b4ceSAdam Hornacek [^] {}
109