src/java/overview.html

e8e4245dSRobert Muir<!--
e8e4245dSRobert Muir Licensed to the Apache Software Foundation (ASF) under one or more
e8e4245dSRobert Muir contributor license agreements.  See the NOTICE file distributed with
e8e4245dSRobert Muir this work for additional information regarding copyright ownership.
e8e4245dSRobert Muir The ASF licenses this file to You under the Apache License, Version 2.0
e8e4245dSRobert Muir (the "License"); you may not use this file except in compliance with
e8e4245dSRobert Muir the License.  You may obtain a copy of the License at
e8e4245dSRobert Muir
e8e4245dSRobert Muir     http://www.apache.org/licenses/LICENSE-2.0
e8e4245dSRobert Muir
e8e4245dSRobert Muir Unless required by applicable law or agreed to in writing, software
e8e4245dSRobert Muir distributed under the License is distributed on an "AS IS" BASIS,
e8e4245dSRobert Muir WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
e8e4245dSRobert Muir See the License for the specific language governing permissions and
e8e4245dSRobert Muir limitations under the License.
e8e4245dSRobert Muir-->
e8e4245dSRobert Muir<html>
e8e4245dSRobert Muir  <head>
e8e4245dSRobert Muir    <META http-equiv="Content-Type" content="text/html; charset=UTF-8">
e8e4245dSRobert Muir    <title>
e8e4245dSRobert Muir      Apache Lucene ICU integration module
e8e4245dSRobert Muir    </title>
e8e4245dSRobert Muir  </head>
e8e4245dSRobert Muir<body>
e8e4245dSRobert Muir<p>
e8e4245dSRobert MuirThis module exposes functionality from
e8e4245dSRobert Muir<a href="http://site.icu-project.org/">ICU</a> to Apache Lucene. ICU4J is a Java
e8e4245dSRobert Muirlibrary that enhances Java's internationalization support by improving
e8e4245dSRobert Muirperformance, keeping current with the Unicode Standard, and providing richer
77f13708SRobert MuirAPIs.
77f13708SRobert Muir<p>
77f13708SRobert MuirFor an introduction to Lucene's analysis API, see the {@link org.apache.lucene.analysis} package documentation.
77f13708SRobert Muir<p>
77f13708SRobert MuirThis module exposes the following functionality:
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<ul>
e8e4245dSRobert Muir  <li><a href="#segmentation">Text Segmentation</a>: Tokenizes text based on
e8e4245dSRobert Muir  properties and rules defined in Unicode.</li>
e8e4245dSRobert Muir  <li><a href="#collation">Collation</a>: Compare strings according to the
e8e4245dSRobert Muir  conventions and standards of a particular language, region or country.</li>
e8e4245dSRobert Muir  <li><a href="#normalization">Normalization</a>: Converts text to a unique,
e8e4245dSRobert Muir  equivalent form.</li>
e8e4245dSRobert Muir  <li><a href="#casefolding">Case Folding</a>: Removes case distinctions with
e8e4245dSRobert Muir  Unicode's Default Caseless Matching algorithm.</li>
e8e4245dSRobert Muir  <li><a href="#searchfolding">Search Term Folding</a>: Removes distinctions
e8e4245dSRobert Muir  (such as accent marks) between similar characters for a loose or fuzzy search.</li>
e8e4245dSRobert Muir  <li><a href="#transform">Text Transformation</a>: Transforms Unicode text in
e8e4245dSRobert Muir  a context-sensitive fashion: e.g. mapping Traditional to Simplified Chinese</li>
e8e4245dSRobert Muir</ul>
*0d339043SRobert Muir<hr>
*0d339043SRobert Muir<h1><a id="segmentation">Text Segmentation</a></h1>
e8e4245dSRobert Muir<p>
e8e4245dSRobert MuirText Segmentation (Tokenization) divides document and query text into index terms
e8e4245dSRobert Muir(typically words). Unicode provides special properties and rules so that this can
e8e4245dSRobert Muirbe done in a manner that works well with most languages.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<p>
e8e4245dSRobert MuirText Segmentation implements the word segmentation specified in
e8e4245dSRobert Muir<a href="http://unicode.org/reports/tr29/">Unicode Text Segmentation</a>.
e8e4245dSRobert MuirAdditionally the algorithm can be tailored based on writing system, for example
e8e4245dSRobert Muirtext in the Thai script is automatically delegated to a dictionary-based segmentation
e8e4245dSRobert Muiralgorithm.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<h2>Use Cases</h2>
e8e4245dSRobert Muir<ul>
e8e4245dSRobert Muir  <li>
e8e4245dSRobert Muir    As a more thorough replacement for StandardTokenizer that works well for
e8e4245dSRobert Muir    most languages.
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir</ul>
e8e4245dSRobert Muir<h2>Example Usages</h2>
e8e4245dSRobert Muir<h3>Tokenizing multilanguage text</h3>
e8e4245dSRobert Muir<pre class="prettyprint">
e8e4245dSRobert Muir  /**
e8e4245dSRobert Muir   * This tokenizer will work well in general for most languages.
e8e4245dSRobert Muir   */
e8e4245dSRobert Muir  Tokenizer tokenizer = new ICUTokenizer(reader);
e8e4245dSRobert Muir</pre>
*0d339043SRobert Muir<hr>
*0d339043SRobert Muir<h1><a id="collation">Collation</a></h1>
e8e4245dSRobert Muir<p>
0bf1f362SRobert Muir  <code>ICUCollationKeyAnalyzer</code>
e8e4245dSRobert Muir  converts each token into its binary <code>CollationKey</code> using the
0bf1f362SRobert Muir  provided <code>Collator</code>, allowing it to be
e8e4245dSRobert Muir  stored as an index term.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<p>
0bf1f362SRobert Muir  <code>ICUCollationKeyAnalyzer</code> depends on ICU4J to produce the
0bf1f362SRobert Muir  <code>CollationKey</code>s.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir
e8e4245dSRobert Muir<h2>Use Cases</h2>
e8e4245dSRobert Muir
e8e4245dSRobert Muir<ul>
e8e4245dSRobert Muir  <li>
e8e4245dSRobert Muir    Efficient sorting of terms in languages that use non-Unicode character
e8e4245dSRobert Muir    orderings.  (Lucene Sort using a Locale can be very slow.)
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir  <li>
e8e4245dSRobert Muir    Efficient range queries over fields that contain terms in languages that
e8e4245dSRobert Muir    use non-Unicode character orderings.  (Range queries using a Locale can be
e8e4245dSRobert Muir    very slow.)
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir  <li>
e8e4245dSRobert Muir    Effective Locale-specific normalization (case differences, diacritics, etc.).
87016b5fSMike McCandless    ({@link org.apache.lucene.analysis.LowerCaseFilter} and
e8e4245dSRobert Muir    {@link org.apache.lucene.analysis.miscellaneous.ASCIIFoldingFilter} provide these services
e8e4245dSRobert Muir    in a generic way that doesn't take into account locale-specific needs.)
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir</ul>
e8e4245dSRobert Muir
e8e4245dSRobert Muir<h2>Example Usages</h2>
e8e4245dSRobert Muir
e8e4245dSRobert Muir<h3>Farsi Range Queries</h3>
e8e4245dSRobert Muir<pre class="prettyprint">
e8e4245dSRobert Muir  Collator collator = Collator.getInstance(new ULocale("ar"));
f5663864SRyan Ernst  ICUCollationKeyAnalyzer analyzer = new ICUCollationKeyAnalyzer(collator);
922295a9SDawid Weiss  Path indexPath = Files.createTempDirectory("tempIndex");
922295a9SDawid Weiss  Directory dir = FSDirectory.open(indexPath);
922295a9SDawid Weiss  IndexWriter writer = new IndexWriter(dir, new IndexWriterConfig(analyzer));
e8e4245dSRobert Muir  Document doc = new Document();
e8e4245dSRobert Muir  doc.add(new Field("content", "\u0633\u0627\u0628",
e8e4245dSRobert Muir                    Field.Store.YES, Field.Index.ANALYZED));
e8e4245dSRobert Muir  writer.addDocument(doc);
e8e4245dSRobert Muir  writer.close();
922295a9SDawid Weiss  IndexSearcher is = new IndexSearcher(dir, true);
e8e4245dSRobert Muir
f5663864SRyan Ernst  QueryParser aqp = new QueryParser("content", analyzer);
e8e4245dSRobert Muir  aqp.setAnalyzeRangeTerms(true);
e8e4245dSRobert Muir
e8e4245dSRobert Muir  // Unicode order would include U+0633 in [ U+062F - U+0698 ], but Farsi
e8e4245dSRobert Muir  // orders the U+0698 character before the U+0633 character, so the single
e8e4245dSRobert Muir  // indexed Term above should NOT be returned by a ConstantScoreRangeQuery
e8e4245dSRobert Muir  // with a Farsi Collator (or an Arabic one for the case when Farsi is not
e8e4245dSRobert Muir  // supported).
e8e4245dSRobert Muir  ScoreDoc[] result
e8e4245dSRobert Muir    = is.search(aqp.parse("[ \u062F TO \u0698 ]"), null, 1000).scoreDocs;
e8e4245dSRobert Muir  assertEquals("The index Term should not be included.", 0, result.length);
e8e4245dSRobert Muir</pre>
e8e4245dSRobert Muir
e8e4245dSRobert Muir<h3>Danish Sorting</h3>
e8e4245dSRobert Muir<pre class="prettyprint">
e8e4245dSRobert Muir  Analyzer analyzer
f5663864SRyan Ernst    = new ICUCollationKeyAnalyzer(Collator.getInstance(new ULocale("da", "dk")));
922295a9SDawid Weiss  Path indexPath = Files.createTempDirectory("tempIndex");
922295a9SDawid Weiss  Directory dir = FSDirectory.open(indexPath);
922295a9SDawid Weiss  IndexWriter writer = new IndexWriter(dir, new IndexWriterConfig(analyzer));
e8e4245dSRobert Muir  String[] tracer = new String[] { "A", "B", "C", "D", "E" };
e8e4245dSRobert Muir  String[] data = new String[] { "HAT", "HUT", "H\u00C5T", "H\u00D8T", "HOT" };
e8e4245dSRobert Muir  String[] sortedTracerOrder = new String[] { "A", "E", "B", "D", "C" };
7dc4df95SDawid Weiss  for (int i = 0 ; i &lt; data.length ; ++i) {
e8e4245dSRobert Muir    Document doc = new Document();
e8e4245dSRobert Muir    doc.add(new Field("tracer", tracer[i], Field.Store.YES, Field.Index.NO));
e8e4245dSRobert Muir    doc.add(new Field("contents", data[i], Field.Store.NO, Field.Index.ANALYZED));
e8e4245dSRobert Muir    writer.addDocument(doc);
e8e4245dSRobert Muir  }
e8e4245dSRobert Muir  writer.close();
922295a9SDawid Weiss  IndexSearcher searcher = new IndexSearcher(dir, true);
e8e4245dSRobert Muir  Sort sort = new Sort();
e8e4245dSRobert Muir  sort.setSort(new SortField("contents", SortField.STRING));
e8e4245dSRobert Muir  Query query = new MatchAllDocsQuery();
e8e4245dSRobert Muir  ScoreDoc[] result = searcher.search(query, null, 1000, sort).scoreDocs;
7dc4df95SDawid Weiss  for (int i = 0 ; i &lt; result.length ; ++i) {
e8e4245dSRobert Muir    Document doc = searcher.doc(result[i].doc);
e8e4245dSRobert Muir    assertEquals(sortedTracerOrder[i], doc.getValues("tracer")[0]);
e8e4245dSRobert Muir  }
e8e4245dSRobert Muir</pre>
e8e4245dSRobert Muir
e8e4245dSRobert Muir<h3>Turkish Case Normalization</h3>
e8e4245dSRobert Muir<pre class="prettyprint">
e8e4245dSRobert Muir  Collator collator = Collator.getInstance(new ULocale("tr", "TR"));
e8e4245dSRobert Muir  collator.setStrength(Collator.PRIMARY);
f5663864SRyan Ernst  Analyzer analyzer = new ICUCollationKeyAnalyzer(collator);
922295a9SDawid Weiss  Path indexPath = Files.createTempDirectory("tempIndex");
922295a9SDawid Weiss  Directory dir = FSDirectory.open(indexPath);
922295a9SDawid Weiss  IndexWriter writer = new IndexWriter(dir, new IndexWriterConfig(analyzer));
e8e4245dSRobert Muir  Document doc = new Document();
e8e4245dSRobert Muir  doc.add(new Field("contents", "DIGY", Field.Store.NO, Field.Index.ANALYZED));
e8e4245dSRobert Muir  writer.addDocument(doc);
e8e4245dSRobert Muir  writer.close();
922295a9SDawid Weiss  IndexSearcher is = new IndexSearcher(dir, true);
f5663864SRyan Ernst  QueryParser parser = new QueryParser("contents", analyzer);
e8e4245dSRobert Muir  Query query = parser.parse("d\u0131gy");   // U+0131: dotless i
e8e4245dSRobert Muir  ScoreDoc[] result = is.search(query, null, 1000).scoreDocs;
e8e4245dSRobert Muir  assertEquals("The index Term should be included.", 1, result.length);
e8e4245dSRobert Muir</pre>
e8e4245dSRobert Muir
e8e4245dSRobert Muir<h2>Caveats and Comparisons</h2>
e8e4245dSRobert Muir<p>
e8e4245dSRobert Muir  <strong>WARNING:</strong> Make sure you use exactly the same
e8e4245dSRobert Muir  <code>Collator</code> at index and query time -- <code>CollationKey</code>s
e8e4245dSRobert Muir  are only comparable when produced by
e8e4245dSRobert Muir  the same <code>Collator</code>.  Since {@link java.text.RuleBasedCollator}s
e8e4245dSRobert Muir  are not independently versioned, it is unsafe to search against stored
e8e4245dSRobert Muir  <code>CollationKey</code>s unless the following are exactly the same (best
e8e4245dSRobert Muir  practice is to store this information with the index and check that they
e8e4245dSRobert Muir  remain the same at query time):
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<ol>
e8e4245dSRobert Muir  <li>JVM vendor</li>
e8e4245dSRobert Muir  <li>JVM version, including patch version</li>
e8e4245dSRobert Muir  <li>
e8e4245dSRobert Muir    The language (and country and variant, if specified) of the Locale
e8e4245dSRobert Muir    used when constructing the collator via
e8e4245dSRobert Muir    {@link java.text.Collator#getInstance(java.util.Locale)}.
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir  <li>
e8e4245dSRobert Muir    The collation strength used - see {@link java.text.Collator#setStrength(int)}
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir</ol>
e8e4245dSRobert Muir<p>
0bf1f362SRobert Muir  <code>ICUCollationKeyAnalyzer</code> uses ICU4J's <code>Collator</code>, which
e8e4245dSRobert Muir  makes its version available, thus allowing collation to be versioned
0bf1f362SRobert Muir  independently from the JVM.  <code>ICUCollationKeyAnalyzer</code> is also
e8e4245dSRobert Muir  significantly faster and generates significantly shorter keys than
0bf1f362SRobert Muir  <code>CollationKeyAnalyzer</code>.  See
e8e4245dSRobert Muir  <a href="http://site.icu-project.org/charts/collation-icu4j-sun"
e8e4245dSRobert Muir    >http://site.icu-project.org/charts/collation-icu4j-sun</a> for key
e8e4245dSRobert Muir  generation timing and key length comparisons between ICU4J and
e8e4245dSRobert Muir  <code>java.text.Collator</code> over several languages.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<p>
e8e4245dSRobert Muir  <code>CollationKey</code>s generated by <code>java.text.Collator</code>s are
e8e4245dSRobert Muir  not compatible with those those generated by ICU Collators.  Specifically, if
0bf1f362SRobert Muir  you use <code>CollationKeyAnalyzer</code> to generate index terms, do not use
0bf1f362SRobert Muir  <code>ICUCollationKeyAnalyzer</code> on the query side, or vice versa.
e8e4245dSRobert Muir</p>
*0d339043SRobert Muir<hr>
*0d339043SRobert Muir<h1><a id="normalization">Normalization</a></h1>
e8e4245dSRobert Muir<p>
e8e4245dSRobert Muir  <code>ICUNormalizer2Filter</code> normalizes term text to a
e8e4245dSRobert Muir  <a href="http://unicode.org/reports/tr15/">Unicode Normalization Form</a>, so
e8e4245dSRobert Muir  that <a href="http://en.wikipedia.org/wiki/Unicode_equivalence">equivalent</a>
e8e4245dSRobert Muir  forms are standardized to a unique form.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<h2>Use Cases</h2>
e8e4245dSRobert Muir<ul>
e8e4245dSRobert Muir  <li> Removing differences in width for Asian-language text.
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir  <li> Standardizing complex text with non-spacing marks so that characters are
e8e4245dSRobert Muir  ordered consistently.
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir</ul>
e8e4245dSRobert Muir<h2>Example Usages</h2>
e8e4245dSRobert Muir<h3>Normalizing text to NFC</h3>
e8e4245dSRobert Muir<pre class="prettyprint">
e8e4245dSRobert Muir  /**
e8e4245dSRobert Muir   * Normalizer2 objects are unmodifiable and immutable.
e8e4245dSRobert Muir   */
e8e4245dSRobert Muir  Normalizer2 normalizer = Normalizer2.getInstance(null, "nfc", Normalizer2.Mode.COMPOSE);
e8e4245dSRobert Muir  /**
e8e4245dSRobert Muir   * This filter will normalize to NFC.
e8e4245dSRobert Muir   */
e8e4245dSRobert Muir  TokenStream tokenstream = new ICUNormalizer2Filter(tokenizer, normalizer);
e8e4245dSRobert Muir</pre>
*0d339043SRobert Muir<hr>
*0d339043SRobert Muir<h1><a id="casefolding">Case Folding</a></h1>
e8e4245dSRobert Muir<p>
e8e4245dSRobert MuirDefault caseless matching, or case-folding is more than just conversion to
e8e4245dSRobert Muirlowercase. For example, it handles cases such as the Greek sigma, so that
e8e4245dSRobert Muir"Μάϊος" and "ΜΆΪΟΣ" will match correctly.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<p>
e8e4245dSRobert MuirCase-folding is still only an approximation of the language-specific rules
e8e4245dSRobert Muirgoverning case. If the specific language is known, consider using
e8e4245dSRobert MuirICUCollationKeyFilter and indexing collation keys instead. This implementation
e8e4245dSRobert Muirperforms the "full" case-folding specified in the Unicode standard, and this
e8e4245dSRobert Muirmay change the length of the term. For example, the German ß is case-folded
e8e4245dSRobert Muirto the string 'ss'.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<p>
e8e4245dSRobert MuirCase folding is related to normalization, and as such is coupled with it in
e8e4245dSRobert Muirthis integration. To perform case-folding, you use normalization with the form
e8e4245dSRobert Muir"nfkc_cf" (which is the default).
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<h2>Use Cases</h2>
e8e4245dSRobert Muir<ul>
e8e4245dSRobert Muir  <li>
e8e4245dSRobert Muir    As a more thorough replacement for LowerCaseFilter that has good behavior
e8e4245dSRobert Muir    for most languages.
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir</ul>
e8e4245dSRobert Muir<h2>Example Usages</h2>
e8e4245dSRobert Muir<h3>Lowercasing text</h3>
e8e4245dSRobert Muir<pre class="prettyprint">
e8e4245dSRobert Muir  /**
e8e4245dSRobert Muir   * This filter will case-fold and normalize to NFKC.
e8e4245dSRobert Muir   */
e8e4245dSRobert Muir  TokenStream tokenstream = new ICUNormalizer2Filter(tokenizer);
e8e4245dSRobert Muir</pre>
*0d339043SRobert Muir<hr>
*0d339043SRobert Muir<h1><a id="searchfolding">Search Term Folding</a></h1>
e8e4245dSRobert Muir<p>
e8e4245dSRobert MuirSearch term folding removes distinctions (such as accent marks) between
e8e4245dSRobert Muirsimilar characters. It is useful for a fuzzy or loose search.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<p>
e8e4245dSRobert MuirSearch term folding implements many of the foldings specified in
e8e4245dSRobert Muir<a href="http://www.unicode.org/reports/tr30/tr30-4.html">Character Foldings</a>
e8e4245dSRobert Muiras a special normalization form.  This folding applies NFKC, Case Folding, and
e8e4245dSRobert Muirmany character foldings recursively.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<h2>Use Cases</h2>
e8e4245dSRobert Muir<ul>
e8e4245dSRobert Muir  <li>
e8e4245dSRobert Muir    As a more thorough replacement for ASCIIFoldingFilter and LowerCaseFilter
e8e4245dSRobert Muir    that applies the same ideas to many more languages.
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir</ul>
e8e4245dSRobert Muir<h2>Example Usages</h2>
e8e4245dSRobert Muir<h3>Removing accents</h3>
e8e4245dSRobert Muir<pre class="prettyprint">
e8e4245dSRobert Muir  /**
e8e4245dSRobert Muir   * This filter will case-fold, remove accents and other distinctions, and
e8e4245dSRobert Muir   * normalize to NFKC.
e8e4245dSRobert Muir   */
e8e4245dSRobert Muir  TokenStream tokenstream = new ICUFoldingFilter(tokenizer);
e8e4245dSRobert Muir</pre>
*0d339043SRobert Muir<hr>
*0d339043SRobert Muir<h1><a id="transform">Text Transformation</a></h1>
e8e4245dSRobert Muir<p>
e8e4245dSRobert MuirICU provides text-transformation functionality via its Transliteration API. This allows
e8e4245dSRobert Muiryou to transform text in a variety of ways, taking context into account.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<p>
e8e4245dSRobert MuirFor more information, see the
e8e4245dSRobert Muir<a href="http://userguide.icu-project.org/transforms/general">User's Guide</a>
e8e4245dSRobert Muirand
e8e4245dSRobert Muir<a href="http://userguide.icu-project.org/transforms/general/rules">Rule Tutorial</a>.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<h2>Use Cases</h2>
e8e4245dSRobert Muir<ul>
e8e4245dSRobert Muir  <li>
e8e4245dSRobert Muir    Convert Traditional to Simplified
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir  <li>
e8e4245dSRobert Muir    Transliterate between different writing systems: e.g. Romanization
e8e4245dSRobert Muir  </li>
e8e4245dSRobert Muir</ul>
e8e4245dSRobert Muir<h2>Example Usages</h2>
e8e4245dSRobert Muir<h3>Convert Traditional to Simplified</h3>
e8e4245dSRobert Muir<pre class="prettyprint">
e8e4245dSRobert Muir  /**
e8e4245dSRobert Muir   * This filter will map Traditional Chinese to Simplified Chinese
e8e4245dSRobert Muir   */
e8e4245dSRobert Muir  TokenStream tokenstream = new ICUTransformFilter(tokenizer, Transliterator.getInstance("Traditional-Simplified"));
e8e4245dSRobert Muir</pre>
e8e4245dSRobert Muir<h3>Transliterate Serbian Cyrillic to Serbian Latin</h3>
e8e4245dSRobert Muir<pre class="prettyprint">
e8e4245dSRobert Muir  /**
e8e4245dSRobert Muir   * This filter will map Serbian Cyrillic to Serbian Latin according to BGN rules
e8e4245dSRobert Muir   */
e8e4245dSRobert Muir  TokenStream tokenstream = new ICUTransformFilter(tokenizer, Transliterator.getInstance("Serbian-Latin/BGN"));
e8e4245dSRobert Muir</pre>
*0d339043SRobert Muir<hr>
*0d339043SRobert Muir<h1><a id="backcompat">Backwards Compatibility</a></h1>
e8e4245dSRobert Muir<p>
e8e4245dSRobert MuirThis module exists to provide up-to-date Unicode functionality that supports
2ea416eeSRobert Muirthe most recent version of Unicode (currently 11.0). However, some users who wish
e8e4245dSRobert Muirfor stronger backwards compatibility can restrict
e8e4245dSRobert Muir{@link org.apache.lucene.analysis.icu.ICUNormalizer2Filter} to operate on only
e8e4245dSRobert Muira specific Unicode Version by using a {@link com.ibm.icu.text.FilteredNormalizer2}.
e8e4245dSRobert Muir</p>
e8e4245dSRobert Muir<h2>Example Usages</h2>
e8e4245dSRobert Muir<h3>Restricting normalization to Unicode 5.0</h3>
e8e4245dSRobert Muir<pre class="prettyprint">
e8e4245dSRobert Muir  /**
e8e4245dSRobert Muir   * This filter will do NFC normalization, but will ignore any characters that
e8e4245dSRobert Muir   * did not exist as of Unicode 5.0. Because of the normalization stability policy
e8e4245dSRobert Muir   * of Unicode, this is an easy way to force normalization to a specific version.
e8e4245dSRobert Muir   */
e8e4245dSRobert Muir    Normalizer2 normalizer = Normalizer2.getInstance(null, "nfc", Normalizer2.Mode.COMPOSE);
e8e4245dSRobert Muir    UnicodeSet set = new UnicodeSet("[:age=5.0:]");
e8e4245dSRobert Muir    // see FilteredNormalizer2 docs, the set should be frozen or performance will suffer
e8e4245dSRobert Muir    set.freeze();
e8e4245dSRobert Muir    FilteredNormalizer2 unicode50 = new FilteredNormalizer2(normalizer, set);
e8e4245dSRobert Muir    TokenStream tokenstream = new ICUNormalizer2Filter(tokenizer, unicode50);
e8e4245dSRobert Muir</pre>
e8e4245dSRobert Muir</body>
e8e4245dSRobert Muir</html>