xref: /OpenGrok/opengrok-indexer/src/main/jflex/analysis/rust/RustSymbolTokenizer.lex (revision d219b4cea555a12b602d2d5518daa22134ad4879)
1*d219b4ceSAdam Hornacek /*
2*d219b4ceSAdam Hornacek  * CDDL HEADER START
3*d219b4ceSAdam Hornacek  *
4*d219b4ceSAdam Hornacek  * The contents of this file are subject to the terms of the
5*d219b4ceSAdam Hornacek  * Common Development and Distribution License (the "License").
6*d219b4ceSAdam Hornacek  * You may not use this file except in compliance with the License.
7*d219b4ceSAdam Hornacek  *
8*d219b4ceSAdam Hornacek  * See LICENSE.txt included in this distribution for the specific
9*d219b4ceSAdam Hornacek  * language governing permissions and limitations under the License.
10*d219b4ceSAdam Hornacek  *
11*d219b4ceSAdam Hornacek  * When distributing Covered Code, include this CDDL HEADER in each
12*d219b4ceSAdam Hornacek  * file and include the License file at LICENSE.txt.
13*d219b4ceSAdam Hornacek  * If applicable, add the following below this CDDL HEADER, with the
14*d219b4ceSAdam Hornacek  * fields enclosed by brackets "[]" replaced with your own identifying
15*d219b4ceSAdam Hornacek  * information: Portions Copyright [yyyy] [name of copyright owner]
16*d219b4ceSAdam Hornacek  *
17*d219b4ceSAdam Hornacek  * CDDL HEADER END
18*d219b4ceSAdam Hornacek  */
19*d219b4ceSAdam Hornacek 
20*d219b4ceSAdam Hornacek /*
21*d219b4ceSAdam Hornacek  * Copyright (c) 2016, 2021, Oracle and/or its affiliates. All rights reserved.
22*d219b4ceSAdam Hornacek  * Portions Copyright (c) 2016 Nikolay Denev.
23*d219b4ceSAdam Hornacek  * Portions Copyright (c) 2017, Chris Fraire <cfraire@me.com>.
24*d219b4ceSAdam Hornacek  */
25*d219b4ceSAdam Hornacek 
26*d219b4ceSAdam Hornacek /*
27*d219b4ceSAdam Hornacek  * Gets Rust symbols - ignores comments, strings, keywords
28*d219b4ceSAdam Hornacek  */
29*d219b4ceSAdam Hornacek 
30*d219b4ceSAdam Hornacek package org.opengrok.indexer.analysis.rust;
31*d219b4ceSAdam Hornacek 
32*d219b4ceSAdam Hornacek import org.opengrok.indexer.analysis.JFlexSymbolMatcher;
33*d219b4ceSAdam Hornacek %%
34*d219b4ceSAdam Hornacek %public
35*d219b4ceSAdam Hornacek %class RustSymbolTokenizer
36*d219b4ceSAdam Hornacek %extends JFlexSymbolMatcher
37*d219b4ceSAdam Hornacek %unicode
38*d219b4ceSAdam Hornacek %int
39*d219b4ceSAdam Hornacek %include ../CommonLexer.lexh
40*d219b4ceSAdam Hornacek %char
41*d219b4ceSAdam Hornacek %{
42*d219b4ceSAdam Hornacek   /**
43*d219b4ceSAdam Hornacek    * Stores the number of hashes beginning and ending a raw string or raw byte
44*d219b4ceSAdam Hornacek    * string. E.g., r##"blah"## has rawHashCount == 2.
45*d219b4ceSAdam Hornacek    */
46*d219b4ceSAdam Hornacek   int rawHashCount;
47*d219b4ceSAdam Hornacek 
48*d219b4ceSAdam Hornacek   int nestedComment;
49*d219b4ceSAdam Hornacek 
50*d219b4ceSAdam Hornacek   @Override
reset()51*d219b4ceSAdam Hornacek   public void reset() {
52*d219b4ceSAdam Hornacek       super.reset();
53*d219b4ceSAdam Hornacek       rawHashCount = 0;
54*d219b4ceSAdam Hornacek       nestedComment = 0;
55*d219b4ceSAdam Hornacek   }
56*d219b4ceSAdam Hornacek %}
57*d219b4ceSAdam Hornacek 
58*d219b4ceSAdam Hornacek %state STRING RSTRING COMMENT SCOMMENT
59*d219b4ceSAdam Hornacek 
60*d219b4ceSAdam Hornacek %include ../Common.lexh
61*d219b4ceSAdam Hornacek %include Rust.lexh
62*d219b4ceSAdam Hornacek %%
63*d219b4ceSAdam Hornacek 
64*d219b4ceSAdam Hornacek <YYINITIAL> {
65*d219b4ceSAdam Hornacek {Identifier} {
66*d219b4ceSAdam Hornacek     String id = yytext();
67*d219b4ceSAdam Hornacek                 if(!Consts.kwd.contains(id)){
68*d219b4ceSAdam Hornacek                         onSymbolMatched(id, yychar);
69*d219b4ceSAdam Hornacek                         return yystate();
70*d219b4ceSAdam Hornacek                 }
71*d219b4ceSAdam Hornacek  }
72*d219b4ceSAdam Hornacek  {Number}    {}
73*d219b4ceSAdam Hornacek  [b]?\"     { yybegin(STRING); }
74*d219b4ceSAdam Hornacek  [b]?[r][#]*\" {
75*d219b4ceSAdam Hornacek     yybegin(RSTRING);
76*d219b4ceSAdam Hornacek     rawHashCount = RustUtils.countRawHashes(yytext());
77*d219b4ceSAdam Hornacek  }
78*d219b4ceSAdam Hornacek  [b]?\' ([^\n\r\'\\] | \\[^\n\r]) \' |
79*d219b4ceSAdam Hornacek  [b]?\' \\[xX]{HEXDIG}{HEXDIG} \' |
80*d219b4ceSAdam Hornacek  [b]?\' \\[uU]\{ {HEXDIG}{1,6} \}\'    {}
81*d219b4ceSAdam Hornacek  "/*"   {
82*d219b4ceSAdam Hornacek     ++nestedComment;
83*d219b4ceSAdam Hornacek     yybegin(COMMENT);
84*d219b4ceSAdam Hornacek  }
85*d219b4ceSAdam Hornacek  "//"   { yybegin(SCOMMENT); }
86*d219b4ceSAdam Hornacek }
87*d219b4ceSAdam Hornacek 
88*d219b4ceSAdam Hornacek <STRING> {
89*d219b4ceSAdam Hornacek  \\[\"\\]    {}
90*d219b4ceSAdam Hornacek  \"     { yybegin(YYINITIAL); }
91*d219b4ceSAdam Hornacek }
92*d219b4ceSAdam Hornacek 
93*d219b4ceSAdam Hornacek <RSTRING> {
94*d219b4ceSAdam Hornacek     \"[#]*    {
95*d219b4ceSAdam Hornacek         String capture = yytext();
96*d219b4ceSAdam Hornacek         if (RustUtils.isRawEnding(capture, rawHashCount)) {
97*d219b4ceSAdam Hornacek             yybegin(YYINITIAL);
98*d219b4ceSAdam Hornacek             int excess = capture.length() - 1 - rawHashCount;
99*d219b4ceSAdam Hornacek             if (excess > 0) yypushback(excess);
100*d219b4ceSAdam Hornacek         }
101*d219b4ceSAdam Hornacek     }
102*d219b4ceSAdam Hornacek }
103*d219b4ceSAdam Hornacek 
104*d219b4ceSAdam Hornacek <STRING, RSTRING> {
105*d219b4ceSAdam Hornacek     {WhspChar}*{EOL}    {
106*d219b4ceSAdam Hornacek         // no-op
107*d219b4ceSAdam Hornacek     }
108*d219b4ceSAdam Hornacek }
109*d219b4ceSAdam Hornacek 
110*d219b4ceSAdam Hornacek <COMMENT> {
111*d219b4ceSAdam Hornacek     "*/"    { if (--nestedComment == 0) yybegin(YYINITIAL); }
112*d219b4ceSAdam Hornacek     "/*"    { ++nestedComment; }
113*d219b4ceSAdam Hornacek }
114*d219b4ceSAdam Hornacek 
115*d219b4ceSAdam Hornacek <SCOMMENT> {
116*d219b4ceSAdam Hornacek {WhspChar}+    {}
117*d219b4ceSAdam Hornacek {EOL}      { yybegin(YYINITIAL);}
118*d219b4ceSAdam Hornacek }
119*d219b4ceSAdam Hornacek 
120*d219b4ceSAdam Hornacek <YYINITIAL, STRING, RSTRING, COMMENT, SCOMMENT> {
121*d219b4ceSAdam Hornacek [^]    {}
122*d219b4ceSAdam Hornacek }
123