xref: /OpenGrok/opengrok-indexer/src/main/jflex/analysis/scala/ScalaSymbolTokenizer.lex (revision d219b4cea555a12b602d2d5518daa22134ad4879)
1*d219b4ceSAdam Hornacek /*
2*d219b4ceSAdam Hornacek  * CDDL HEADER START
3*d219b4ceSAdam Hornacek  *
4*d219b4ceSAdam Hornacek  * The contents of this file are subject to the terms of the
5*d219b4ceSAdam Hornacek  * Common Development and Distribution License (the "License").
6*d219b4ceSAdam Hornacek  * You may not use this file except in compliance with the License.
7*d219b4ceSAdam Hornacek  *
8*d219b4ceSAdam Hornacek  * See LICENSE.txt included in this distribution for the specific
9*d219b4ceSAdam Hornacek  * language governing permissions and limitations under the License.
10*d219b4ceSAdam Hornacek  *
11*d219b4ceSAdam Hornacek  * When distributing Covered Code, include this CDDL HEADER in each
12*d219b4ceSAdam Hornacek  * file and include the License file at LICENSE.txt.
13*d219b4ceSAdam Hornacek  * If applicable, add the following below this CDDL HEADER, with the
14*d219b4ceSAdam Hornacek  * fields enclosed by brackets "[]" replaced with your own identifying
15*d219b4ceSAdam Hornacek  * information: Portions Copyright [yyyy] [name of copyright owner]
16*d219b4ceSAdam Hornacek  *
17*d219b4ceSAdam Hornacek  * CDDL HEADER END
18*d219b4ceSAdam Hornacek  */
19*d219b4ceSAdam Hornacek 
20*d219b4ceSAdam Hornacek /*
21*d219b4ceSAdam Hornacek  * Copyright (c) 2006, 2021, Oracle and/or its affiliates. All rights reserved.
22*d219b4ceSAdam Hornacek  * Portions Copyright (c) 2017, Chris Fraire <cfraire@me.com>.
23*d219b4ceSAdam Hornacek  */
24*d219b4ceSAdam Hornacek 
25*d219b4ceSAdam Hornacek /*
26*d219b4ceSAdam Hornacek  * Gets Scala symbols - ignores comments, strings, keywords
27*d219b4ceSAdam Hornacek  */
28*d219b4ceSAdam Hornacek 
29*d219b4ceSAdam Hornacek package org.opengrok.indexer.analysis.scala;
30*d219b4ceSAdam Hornacek 
31*d219b4ceSAdam Hornacek import org.opengrok.indexer.analysis.JFlexSymbolMatcher;
32*d219b4ceSAdam Hornacek %%
33*d219b4ceSAdam Hornacek %public
34*d219b4ceSAdam Hornacek %class ScalaSymbolTokenizer
35*d219b4ceSAdam Hornacek %extends JFlexSymbolMatcher
36*d219b4ceSAdam Hornacek %unicode
37*d219b4ceSAdam Hornacek %int
38*d219b4ceSAdam Hornacek %include ../CommonLexer.lexh
39*d219b4ceSAdam Hornacek %char
40*d219b4ceSAdam Hornacek %{
41*d219b4ceSAdam Hornacek     private int nestedComment;
42*d219b4ceSAdam Hornacek 
43*d219b4ceSAdam Hornacek     @Override
reset()44*d219b4ceSAdam Hornacek     public void reset() {
45*d219b4ceSAdam Hornacek         super.reset();
46*d219b4ceSAdam Hornacek         nestedComment = 0;
47*d219b4ceSAdam Hornacek     }
48*d219b4ceSAdam Hornacek %}
49*d219b4ceSAdam Hornacek 
50*d219b4ceSAdam Hornacek /*
51*d219b4ceSAdam Hornacek  * STRING : string literal
52*d219b4ceSAdam Hornacek  * ISTRING : string literal with interpolation
53*d219b4ceSAdam Hornacek  * MSTRING : multi-line string literal
54*d219b4ceSAdam Hornacek  * IMSTRING : multi-line string literal with interpolation
55*d219b4ceSAdam Hornacek  * QSTRING : character literal
56*d219b4ceSAdam Hornacek  * SCOMMENT : single-line comment
57*d219b4ceSAdam Hornacek  * COMMENT : multi-line comment
58*d219b4ceSAdam Hornacek  */
59*d219b4ceSAdam Hornacek %state STRING ISTRING MSTRING IMSTRING QSTRING SCOMMENT COMMENT
60*d219b4ceSAdam Hornacek 
61*d219b4ceSAdam Hornacek %include ../Common.lexh
62*d219b4ceSAdam Hornacek %include Scala.lexh
63*d219b4ceSAdam Hornacek %%
64*d219b4ceSAdam Hornacek 
65*d219b4ceSAdam Hornacek <YYINITIAL> {
66*d219b4ceSAdam Hornacek {Identifier} {String id = yytext();
67*d219b4ceSAdam Hornacek                 if(!Consts.kwd.contains(id)){
68*d219b4ceSAdam Hornacek                         onSymbolMatched(id, yychar);
69*d219b4ceSAdam Hornacek                         return yystate(); }
70*d219b4ceSAdam Hornacek               }
71*d219b4ceSAdam Hornacek 
72*d219b4ceSAdam Hornacek  {BacktickIdentifier} {
73*d219b4ceSAdam Hornacek     String capture = yytext();
74*d219b4ceSAdam Hornacek     String id = capture.substring(1, capture.length() - 1);
75*d219b4ceSAdam Hornacek     if (!Consts.kwd.contains(id)) {
76*d219b4ceSAdam Hornacek         onSymbolMatched(id, yychar + 1);
77*d219b4ceSAdam Hornacek         return yystate();
78*d219b4ceSAdam Hornacek     }
79*d219b4ceSAdam Hornacek  }
80*d219b4ceSAdam Hornacek 
81*d219b4ceSAdam Hornacek  {OpSuffixIdentifier}    {
82*d219b4ceSAdam Hornacek     String capture = yytext();
83*d219b4ceSAdam Hornacek     int uoff = capture.lastIndexOf("_");
84*d219b4ceSAdam Hornacek     // ctags include the "_" in the symbol, so follow that too.
85*d219b4ceSAdam Hornacek     String id = capture.substring(0, uoff + 1);
86*d219b4ceSAdam Hornacek     if (!Consts.kwd.contains(id)) {
87*d219b4ceSAdam Hornacek         onSymbolMatched(id, yychar);
88*d219b4ceSAdam Hornacek         return yystate();
89*d219b4ceSAdam Hornacek     }
90*d219b4ceSAdam Hornacek  }
91*d219b4ceSAdam Hornacek 
92*d219b4ceSAdam Hornacek  {Number}    {}
93*d219b4ceSAdam Hornacek  ([fs] | "raw") \"    { yybegin(ISTRING); }
94*d219b4ceSAdam Hornacek  {Identifier}? \"    { yybegin(STRING); }
95*d219b4ceSAdam Hornacek  \'     { yybegin(QSTRING); }
96*d219b4ceSAdam Hornacek  ([fs] | "raw") \"\"\"    { yybegin(IMSTRING); }
97*d219b4ceSAdam Hornacek  {Identifier}? \"\"\" { yybegin(MSTRING); }
98*d219b4ceSAdam Hornacek  "/*" "*"+ "/"    {
99*d219b4ceSAdam Hornacek     // noop
100*d219b4ceSAdam Hornacek  }
101*d219b4ceSAdam Hornacek  "//"   { yybegin(SCOMMENT); }
102*d219b4ceSAdam Hornacek }
103*d219b4ceSAdam Hornacek 
104*d219b4ceSAdam Hornacek <STRING, ISTRING> {
105*d219b4ceSAdam Hornacek  \\[\"\\]    {}
106*d219b4ceSAdam Hornacek  \"     { yybegin(YYINITIAL); }
107*d219b4ceSAdam Hornacek }
108*d219b4ceSAdam Hornacek 
109*d219b4ceSAdam Hornacek <ISTRING, IMSTRING> {
110*d219b4ceSAdam Hornacek     /*
111*d219b4ceSAdam Hornacek      * TODO : support "arbitrary expressions" inside curly brackets
112*d219b4ceSAdam Hornacek      */
113*d219b4ceSAdam Hornacek     \$ {Identifier}    {
114*d219b4ceSAdam Hornacek         String capture = yytext();
115*d219b4ceSAdam Hornacek         String id = capture.substring(1);
116*d219b4ceSAdam Hornacek         if (!Consts.kwd.contains(id)) {
117*d219b4ceSAdam Hornacek             onSymbolMatched(id, yychar + 1);
118*d219b4ceSAdam Hornacek             return yystate();
119*d219b4ceSAdam Hornacek        }
120*d219b4ceSAdam Hornacek     }
121*d219b4ceSAdam Hornacek }
122*d219b4ceSAdam Hornacek 
123*d219b4ceSAdam Hornacek <QSTRING> {
124*d219b4ceSAdam Hornacek  \\[\'\\]    {}
125*d219b4ceSAdam Hornacek  \'     { yybegin(YYINITIAL); }
126*d219b4ceSAdam Hornacek }
127*d219b4ceSAdam Hornacek 
128*d219b4ceSAdam Hornacek <MSTRING, IMSTRING> {
129*d219b4ceSAdam Hornacek  /*
130*d219b4ceSAdam Hornacek   * For multi-line string, "Unicode escapes work as everywhere else, but none
131*d219b4ceSAdam Hornacek   * of the escape sequences [in 'Escape Sequences'] are interpreted."
132*d219b4ceSAdam Hornacek   */
133*d219b4ceSAdam Hornacek  \"\"\"    {
134*d219b4ceSAdam Hornacek     yybegin(YYINITIAL);;
135*d219b4ceSAdam Hornacek  }
136*d219b4ceSAdam Hornacek }
137*d219b4ceSAdam Hornacek <YYINITIAL, COMMENT> {
138*d219b4ceSAdam Hornacek     "/*" "*"*    {
139*d219b4ceSAdam Hornacek         if (nestedComment++ == 0) {
140*d219b4ceSAdam Hornacek             yybegin(COMMENT);
141*d219b4ceSAdam Hornacek         }
142*d219b4ceSAdam Hornacek     }
143*d219b4ceSAdam Hornacek }
144*d219b4ceSAdam Hornacek 
145*d219b4ceSAdam Hornacek <COMMENT> {
146*d219b4ceSAdam Hornacek  "*/"    {
147*d219b4ceSAdam Hornacek     if (--nestedComment == 0) {
148*d219b4ceSAdam Hornacek         yybegin(YYINITIAL);
149*d219b4ceSAdam Hornacek     }
150*d219b4ceSAdam Hornacek  }
151*d219b4ceSAdam Hornacek }
152*d219b4ceSAdam Hornacek 
153*d219b4ceSAdam Hornacek <SCOMMENT> {
154*d219b4ceSAdam Hornacek {EOL}      { yybegin(YYINITIAL);}
155*d219b4ceSAdam Hornacek }
156*d219b4ceSAdam Hornacek 
157*d219b4ceSAdam Hornacek <YYINITIAL> {
158*d219b4ceSAdam Hornacek  {OpIdentifier}    {
159*d219b4ceSAdam Hornacek     // noop
160*d219b4ceSAdam Hornacek  }
161*d219b4ceSAdam Hornacek }
162*d219b4ceSAdam Hornacek 
163*d219b4ceSAdam Hornacek <YYINITIAL, STRING, ISTRING, MSTRING, IMSTRING, COMMENT, SCOMMENT, QSTRING> {
164*d219b4ceSAdam Hornacek {WhspChar}+ |
165*d219b4ceSAdam Hornacek [^]    {}
166*d219b4ceSAdam Hornacek }
167