xref: /OpenGrok/opengrok-indexer/src/main/jflex/analysis/plain/XMLXref.lex (revision d219b4cea555a12b602d2d5518daa22134ad4879)
1*d219b4ceSAdam Hornacek /*
2*d219b4ceSAdam Hornacek  * CDDL HEADER START
3*d219b4ceSAdam Hornacek  *
4*d219b4ceSAdam Hornacek  * The contents of this file are subject to the terms of the
5*d219b4ceSAdam Hornacek  * Common Development and Distribution License (the "License").
6*d219b4ceSAdam Hornacek  * You may not use this file except in compliance with the License.
7*d219b4ceSAdam Hornacek  *
8*d219b4ceSAdam Hornacek  * See LICENSE.txt included in this distribution for the specific
9*d219b4ceSAdam Hornacek  * language governing permissions and limitations under the License.
10*d219b4ceSAdam Hornacek  *
11*d219b4ceSAdam Hornacek  * When distributing Covered Code, include this CDDL HEADER in each
12*d219b4ceSAdam Hornacek  * file and include the License file at LICENSE.txt.
13*d219b4ceSAdam Hornacek  * If applicable, add the following below this CDDL HEADER, with the
14*d219b4ceSAdam Hornacek  * fields enclosed by brackets "[]" replaced with your own identifying
15*d219b4ceSAdam Hornacek  * information: Portions Copyright [yyyy] [name of copyright owner]
16*d219b4ceSAdam Hornacek  *
17*d219b4ceSAdam Hornacek  * CDDL HEADER END
18*d219b4ceSAdam Hornacek  */
19*d219b4ceSAdam Hornacek 
20*d219b4ceSAdam Hornacek /*
21*d219b4ceSAdam Hornacek  * Copyright (c) 2005, 2021, Oracle and/or its affiliates. All rights reserved.
22*d219b4ceSAdam Hornacek  * Portions Copyright (c) 2017, Chris Fraire <cfraire@me.com>.
23*d219b4ceSAdam Hornacek  */
24*d219b4ceSAdam Hornacek 
25*d219b4ceSAdam Hornacek package org.opengrok.indexer.analysis.plain;
26*d219b4ceSAdam Hornacek 
27*d219b4ceSAdam Hornacek import org.opengrok.indexer.analysis.JFlexSymbolMatcher;
28*d219b4ceSAdam Hornacek import org.opengrok.indexer.analysis.EmphasisHint;
29*d219b4ceSAdam Hornacek import org.opengrok.indexer.util.StringUtils;
30*d219b4ceSAdam Hornacek import org.opengrok.indexer.web.HtmlConsts;
31*d219b4ceSAdam Hornacek %%
32*d219b4ceSAdam Hornacek %public
33*d219b4ceSAdam Hornacek %class XMLXref
34*d219b4ceSAdam Hornacek %extends JFlexSymbolMatcher
35*d219b4ceSAdam Hornacek %unicode
36*d219b4ceSAdam Hornacek %ignorecase
37*d219b4ceSAdam Hornacek %int
38*d219b4ceSAdam Hornacek %char
39*d219b4ceSAdam Hornacek %include ../CommonLexer.lexh
40*d219b4ceSAdam Hornacek %include ../CommonXref.lexh
41*d219b4ceSAdam Hornacek %{
chkLOC()42*d219b4ceSAdam Hornacek     protected void chkLOC() {
43*d219b4ceSAdam Hornacek         switch (yystate()) {
44*d219b4ceSAdam Hornacek             case COMMENT:
45*d219b4ceSAdam Hornacek                 break;
46*d219b4ceSAdam Hornacek             default:
47*d219b4ceSAdam Hornacek                 phLOC();
48*d219b4ceSAdam Hornacek                 break;
49*d219b4ceSAdam Hornacek         }
50*d219b4ceSAdam Hornacek     }
51*d219b4ceSAdam Hornacek %}
52*d219b4ceSAdam Hornacek 
53*d219b4ceSAdam Hornacek File = {FNameChar}+ "." ([a-zA-Z]+) {FNameChar}*
54*d219b4ceSAdam Hornacek 
55*d219b4ceSAdam Hornacek /*
56*d219b4ceSAdam Hornacek  * Differs from FPath in that the path segments are only constrained to be
57*d219b4ceSAdam Hornacek  * {FNameChar} -- except the last character must be {ASCII_ALPHA} or {DIGIT}.
58*d219b4ceSAdam Hornacek  */
59*d219b4ceSAdam Hornacek AlmostAnyFPath = "/"? {FNameChar}+ ("/" {FNameChar}+)+[a-zA-Z0-9]
60*d219b4ceSAdam Hornacek 
61*d219b4ceSAdam Hornacek FileChar = [a-zA-Z_0-9_\-\/]
62*d219b4ceSAdam Hornacek NameChar = {FileChar}|"."
63*d219b4ceSAdam Hornacek 
64*d219b4ceSAdam Hornacek %state TAG STRING COMMENT SSTRING CDATA
65*d219b4ceSAdam Hornacek %include ../Common.lexh
66*d219b4ceSAdam Hornacek %include ../CommonURI.lexh
67*d219b4ceSAdam Hornacek %include ../CommonPath.lexh
68*d219b4ceSAdam Hornacek %%
69*d219b4ceSAdam Hornacek 
70*d219b4ceSAdam Hornacek <YYINITIAL> {
71*d219b4ceSAdam Hornacek  "<!--"    {
72*d219b4ceSAdam Hornacek     yybegin(COMMENT);
73*d219b4ceSAdam Hornacek     onDisjointSpanChanged(HtmlConsts.COMMENT_CLASS, yychar);
74*d219b4ceSAdam Hornacek     onNonSymbolMatched("<!--", yychar);
75*d219b4ceSAdam Hornacek  }
76*d219b4ceSAdam Hornacek  "<![CDATA[" {
77*d219b4ceSAdam Hornacek     chkLOC();
78*d219b4ceSAdam Hornacek     yybegin(CDATA);
79*d219b4ceSAdam Hornacek     onNonSymbolMatched("<", yychar);
80*d219b4ceSAdam Hornacek     onDisjointSpanChanged(HtmlConsts.NUMBER_CLASS, yychar);
81*d219b4ceSAdam Hornacek     onNonSymbolMatched("![CDATA[", yychar);
82*d219b4ceSAdam Hornacek     onDisjointSpanChanged(HtmlConsts.COMMENT_CLASS, yychar);
83*d219b4ceSAdam Hornacek  }
84*d219b4ceSAdam Hornacek  "<"    { chkLOC(); yybegin(TAG); onNonSymbolMatched("<", yychar); }
85*d219b4ceSAdam Hornacek }
86*d219b4ceSAdam Hornacek 
87*d219b4ceSAdam Hornacek <TAG> {
88*d219b4ceSAdam Hornacek  [a-zA-Z_0-9]+{WhspChar}*\=    {
89*d219b4ceSAdam Hornacek     chkLOC();
90*d219b4ceSAdam Hornacek     onNonSymbolMatched(yytext(), EmphasisHint.STRONG, yychar);
91*d219b4ceSAdam Hornacek  }
92*d219b4ceSAdam Hornacek  [a-zA-Z_0-9]+    {
93*d219b4ceSAdam Hornacek     chkLOC();
94*d219b4ceSAdam Hornacek     onDisjointSpanChanged(HtmlConsts.NUMBER_CLASS, yychar);
95*d219b4ceSAdam Hornacek     onNonSymbolMatched(yytext(), yychar);
96*d219b4ceSAdam Hornacek     onDisjointSpanChanged(null, yychar);
97*d219b4ceSAdam Hornacek  }
98*d219b4ceSAdam Hornacek  \"      {
99*d219b4ceSAdam Hornacek     chkLOC();
100*d219b4ceSAdam Hornacek     yybegin(STRING);
101*d219b4ceSAdam Hornacek     onDisjointSpanChanged(HtmlConsts.STRING_CLASS, yychar);
102*d219b4ceSAdam Hornacek     onNonSymbolMatched(yytext(), yychar);
103*d219b4ceSAdam Hornacek  }
104*d219b4ceSAdam Hornacek  \'      {
105*d219b4ceSAdam Hornacek     chkLOC();
106*d219b4ceSAdam Hornacek     yybegin(SSTRING);
107*d219b4ceSAdam Hornacek     onDisjointSpanChanged(HtmlConsts.STRING_CLASS, yychar);
108*d219b4ceSAdam Hornacek     onNonSymbolMatched(yytext(), yychar);
109*d219b4ceSAdam Hornacek  }
110*d219b4ceSAdam Hornacek  [><]    {
111*d219b4ceSAdam Hornacek     chkLOC();
112*d219b4ceSAdam Hornacek     yybegin(YYINITIAL);
113*d219b4ceSAdam Hornacek     onNonSymbolMatched(yytext(), yychar);
114*d219b4ceSAdam Hornacek  }
115*d219b4ceSAdam Hornacek }
116*d219b4ceSAdam Hornacek 
117*d219b4ceSAdam Hornacek <STRING> {
118*d219b4ceSAdam Hornacek  \" {WhspChar}* \"    { chkLOC(); onNonSymbolMatched(yytext(), yychar); }
119*d219b4ceSAdam Hornacek  \"     {
120*d219b4ceSAdam Hornacek     chkLOC();
121*d219b4ceSAdam Hornacek     yybegin(TAG);
122*d219b4ceSAdam Hornacek     onNonSymbolMatched(yytext(), yychar);
123*d219b4ceSAdam Hornacek     onDisjointSpanChanged(null, yychar);
124*d219b4ceSAdam Hornacek  }
125*d219b4ceSAdam Hornacek }
126*d219b4ceSAdam Hornacek 
127*d219b4ceSAdam Hornacek <SSTRING> {
128*d219b4ceSAdam Hornacek  \' {WhspChar}* \'    { chkLOC(); onNonSymbolMatched(yytext(), yychar); }
129*d219b4ceSAdam Hornacek  \'     {
130*d219b4ceSAdam Hornacek     chkLOC();
131*d219b4ceSAdam Hornacek     yybegin(TAG);
132*d219b4ceSAdam Hornacek     onNonSymbolMatched(yytext(), yychar);
133*d219b4ceSAdam Hornacek     onDisjointSpanChanged(null, yychar);
134*d219b4ceSAdam Hornacek  }
135*d219b4ceSAdam Hornacek }
136*d219b4ceSAdam Hornacek 
137*d219b4ceSAdam Hornacek <COMMENT> {
138*d219b4ceSAdam Hornacek  "-->"     {
139*d219b4ceSAdam Hornacek     yybegin(YYINITIAL);
140*d219b4ceSAdam Hornacek     onNonSymbolMatched(yytext(), yychar);
141*d219b4ceSAdam Hornacek     onDisjointSpanChanged(null, yychar);
142*d219b4ceSAdam Hornacek  }
143*d219b4ceSAdam Hornacek }
144*d219b4ceSAdam Hornacek 
145*d219b4ceSAdam Hornacek <CDATA> {
146*d219b4ceSAdam Hornacek   "]]>" {
147*d219b4ceSAdam Hornacek     chkLOC();
148*d219b4ceSAdam Hornacek     yybegin(YYINITIAL);
149*d219b4ceSAdam Hornacek     onDisjointSpanChanged(HtmlConsts.NUMBER_CLASS, yychar);
150*d219b4ceSAdam Hornacek     onNonSymbolMatched("]]", yychar);
151*d219b4ceSAdam Hornacek     onDisjointSpanChanged(null, yychar);
152*d219b4ceSAdam Hornacek     onNonSymbolMatched(">", yychar);
153*d219b4ceSAdam Hornacek   }
154*d219b4ceSAdam Hornacek }
155*d219b4ceSAdam Hornacek 
156*d219b4ceSAdam Hornacek <YYINITIAL, COMMENT, CDATA, STRING, SSTRING, TAG> {
157*d219b4ceSAdam Hornacek 
158*d219b4ceSAdam Hornacek {File}|{AlmostAnyFPath}
159*d219b4ceSAdam Hornacek   {
160*d219b4ceSAdam Hornacek     chkLOC();
161*d219b4ceSAdam Hornacek     final String path = yytext();
162*d219b4ceSAdam Hornacek     final boolean isJavaClass=StringUtils.isPossiblyJavaClass(path);
163*d219b4ceSAdam Hornacek     final char separator = isJavaClass ? '.' : '/';
164*d219b4ceSAdam Hornacek     onPathlikeMatched(path, separator, isJavaClass, yychar);
165*d219b4ceSAdam Hornacek   }
166*d219b4ceSAdam Hornacek 
167*d219b4ceSAdam Hornacek {BrowseableURI}    {
168*d219b4ceSAdam Hornacek           chkLOC();
169*d219b4ceSAdam Hornacek           onUriMatched(yytext(), yychar);
170*d219b4ceSAdam Hornacek         }
171*d219b4ceSAdam Hornacek 
172*d219b4ceSAdam Hornacek {NameChar}+ "@" {NameChar}+ "." {NameChar}+
173*d219b4ceSAdam Hornacek         {
174*d219b4ceSAdam Hornacek           chkLOC();
175*d219b4ceSAdam Hornacek           onEmailAddressMatched(yytext(), yychar);
176*d219b4ceSAdam Hornacek         }
177*d219b4ceSAdam Hornacek 
178*d219b4ceSAdam Hornacek {WhspChar}*{EOL}    { onEndOfLineMatched(yytext(), yychar); }
179*d219b4ceSAdam Hornacek [[\s]--[\n]]    { onNonSymbolMatched(yytext(), yychar); }
180*d219b4ceSAdam Hornacek [^\n]    { chkLOC(); onNonSymbolMatched(yytext(), yychar); }
181*d219b4ceSAdam Hornacek }
182