src/java/overview.html

*e8e4245dSRobert Muir<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
*e8e4245dSRobert Muir<!--
*e8e4245dSRobert Muir Licensed to the Apache Software Foundation (ASF) under one or more
*e8e4245dSRobert Muir contributor license agreements.  See the NOTICE file distributed with
*e8e4245dSRobert Muir this work for additional information regarding copyright ownership.
*e8e4245dSRobert Muir The ASF licenses this file to You under the Apache License, Version 2.0
*e8e4245dSRobert Muir (the "License"); you may not use this file except in compliance with
*e8e4245dSRobert Muir the License.  You may obtain a copy of the License at
*e8e4245dSRobert Muir
*e8e4245dSRobert Muir     http://www.apache.org/licenses/LICENSE-2.0
*e8e4245dSRobert Muir
*e8e4245dSRobert Muir Unless required by applicable law or agreed to in writing, software
*e8e4245dSRobert Muir distributed under the License is distributed on an "AS IS" BASIS,
*e8e4245dSRobert Muir WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*e8e4245dSRobert Muir See the License for the specific language governing permissions and
*e8e4245dSRobert Muir limitations under the License.
*e8e4245dSRobert Muir-->
*e8e4245dSRobert Muir<html>
*e8e4245dSRobert Muir<head>
*e8e4245dSRobert Muir  <meta content="text/html; charset=UTF-8" http-equiv="content-type">
*e8e4245dSRobert Muir  <title>Stempel - Algorithmic Stemmer for Polish Language</title>
*e8e4245dSRobert Muir  <meta content="Andrzej Bialecki" name="author">
*e8e4245dSRobert Muir  <meta name="keywords"
*e8e4245dSRobert Muir content="stemming, stemmer, algorithmic stemmer, Polish stemmer">
*e8e4245dSRobert Muir  <meta
*e8e4245dSRobert Muir content="This page describes a software package consisting of high-quality stemming tables for Polish, and a universal algorithmic stemmer, which operates using these tables."
*e8e4245dSRobert Muir name="description">
*e8e4245dSRobert Muir</head>
*e8e4245dSRobert Muir<body style="font-family: Arial,SansSerif;">
*e8e4245dSRobert Muir<h1><i>Stempel</i> - Algorithmic Stemmer for Polish Language</h1>
*e8e4245dSRobert Muir<h2>Introduction</h2>
*e8e4245dSRobert Muir<p>A method for conflation of different inflected word forms is an
*e8e4245dSRobert Muirimportant component of many Information Retrieval systems. It helps to
*e8e4245dSRobert Muirimprove the system's recall and can significantly reduce the index
*e8e4245dSRobert Muirsize. This is especially true for highly-inflectional languages like
*e8e4245dSRobert Muirthose from the Slavic language family (Czech, Slovak, Polish, Russian,
*e8e4245dSRobert MuirBulgarian, etc).</p>
*e8e4245dSRobert Muir<p>This page describes a software package consisting of high-quality
*e8e4245dSRobert Muirstemming tables for Polish, and a universal algorithmic stemmer, which
*e8e4245dSRobert Muiroperates using these tables. The stemmer code is taken virtually
*e8e4245dSRobert Muirunchanged from the <a href="http://www.egothor.org">Egothor project</a>.</p>
*e8e4245dSRobert Muir<p>The software distribution includes stemmer
*e8e4245dSRobert Muirtables prepared using an extensive corpus of Polish language (see
*e8e4245dSRobert Muirdetails below).</p>
*e8e4245dSRobert Muir<p>This work is available under Apache-style Open Source license - the
*e8e4245dSRobert Muirstemmer code is covered by Egothor License, the tables and other
*e8e4245dSRobert Muiradditions are covered by Apache License 2.0. Both licenses allow to use
*e8e4245dSRobert Muirthe code in Open Source as well as commercial (closed source) projects.</p>
*e8e4245dSRobert Muir<h3>Terminology</h3>
*e8e4245dSRobert Muir<p>A short explanation is in order about the terminology used in this
*e8e4245dSRobert Muirtext.</p>
*e8e4245dSRobert Muir<p>In the following sections I make a distinction between <b>stem</b>
*e8e4245dSRobert Muirand <b>lemma</b>.</p>
*e8e4245dSRobert Muir<p>Lemma is a base grammatical form (dictionary form, headword) of a
*e8e4245dSRobert Muirword. Lemma is an existing, grammatically correct word in some human
*e8e4245dSRobert Muirlanguage.</p>
*e8e4245dSRobert Muir<p>Stem on the other hand is just a unique token, not necessarily
*e8e4245dSRobert Muirmaking any sense in any human language, but which can serve as a unique
*e8e4245dSRobert Muirlabel instead of lemma for the same set of inflected forms. Quite often
*e8e4245dSRobert Muirstem is referred to as a "root" of the word - which is incorrect and
*e8e4245dSRobert Muirmisleading (stems sometimes have very little to do with the linguistic
*e8e4245dSRobert Muirroot of a word, i.e. a pattern found in a word which is common to all
*e8e4245dSRobert Muirinflected forms or within a family of languages).</p>
*e8e4245dSRobert Muir<p>For an IR system stems are usually sufficient, for a morphological
*e8e4245dSRobert Muiranalysis system obviously lemmas are a must. In practice, various
*e8e4245dSRobert Muirstemmers produce a mix of stems and lemmas, as is the case with the
*e8e4245dSRobert Muirstemmer described here. Additionally, for some languages, which use
*e8e4245dSRobert Muirsuffix-based inflection rules many stemmers based on suffix-stripping
*e8e4245dSRobert Muirwill produce a large percentage of stems equivalent to lemmas. This is
*e8e4245dSRobert Muirhowever not the case for languages with complex, irregular inflection
*e8e4245dSRobert Muirrules (such as Slavic languages) - here simplistic suffix-stripping
*e8e4245dSRobert Muirstemmers produce very poor results.</p>
*e8e4245dSRobert Muir<h3>Background</h3>
*e8e4245dSRobert Muir<p>Lemmatization is a process of finding the base, non-inflected form
*e8e4245dSRobert Muirof a word. The result of lemmatization is a correct existing word,
*e8e4245dSRobert Muiroften in nominative case for nouns and infinitive form for verbs. A
*e8e4245dSRobert Muirgiven inflected form may correspond to several lemmas (e.g. "found"
*e8e4245dSRobert Muir-&gt; find, found) - the correct choice depends on the context.<br>
*e8e4245dSRobert Muir<br>
*e8e4245dSRobert MuirStemming is concerned mostly with finding a unique "root" of a word,
*e8e4245dSRobert Muirwhich not necessarily results in any existing word or lemma. The
*e8e4245dSRobert Muirquality of stemming is measured by the rate of collisions (overstemming
*e8e4245dSRobert Muir- which causes words with different lemmas to be incorrectly conflated
*e8e4245dSRobert Muirinto one "root"), and the rate of superfluous word "roots"
*e8e4245dSRobert Muir(understemming - which assigns several "roots" to words with the same
*e8e4245dSRobert Muirlemma). <br>
*e8e4245dSRobert Muir<br>
*e8e4245dSRobert MuirBoth stemmer and lemmatizer can be implemented in various ways. The two
*e8e4245dSRobert Muirmost common approaches are:<br>
*e8e4245dSRobert Muir</p>
*e8e4245dSRobert Muir<ul>
*e8e4245dSRobert Muir  <li>dictionary-based: where the stemmer uses an extensive dictionary
*e8e4245dSRobert Muirof morphological forms in order to find the corresponding stem or lemma</li>
*e8e4245dSRobert Muir  <li>algorithmic: where the stemmer uses an algorithm, based on
*e8e4245dSRobert Muirgeneral morphological properties of a given language plus a set of
*e8e4245dSRobert Muirheuristic rules<br>
*e8e4245dSRobert Muir  </li>
*e8e4245dSRobert Muir</ul>
*e8e4245dSRobert MuirThere are many existing and well-known implementations of stemmers for
*e8e4245dSRobert MuirEnglish (Porter, Lovins, Krovetz) and other European languages
*e8e4245dSRobert Muir(<a href="http://snowball.tartarus.org">Snowball</a>). There are also
*e8e4245dSRobert Muirgood quality commercial lemmatizers for Polish. However, there is only
*e8e4245dSRobert Muirone
*e8e4245dSRobert Muirfreely available Polish stemmer, implemented by
*e8e4245dSRobert Muir<a
*e8e4245dSRobert Muir href="http://www.cs.put.poznan.pl/dweiss/xml/projects/lametyzator/index.xml?lang=en">Dawid
*e8e4245dSRobert MuirWeiss</a>, based on the "ispell" dictionary and Jan Daciuk's <a
*e8e4245dSRobert Muir href="http://www.eti.pg.gda.pl/%7Ejandac/">FSA package</a>. That
*e8e4245dSRobert Muirstemmer is dictionary-based. This means that even
*e8e4245dSRobert Muirthough it can achieve
*e8e4245dSRobert Muirperfect accuracy for previously known word forms found in its
*e8e4245dSRobert Muirdictionary, it
*e8e4245dSRobert Muircompletely fails in case of all other word forms. This deficiency is
*e8e4245dSRobert Muirsomewhat mitigated by the comprehensive dictionary distributed with
*e8e4245dSRobert Muirthis stemmer (so there is a high probability that most of the words in
*e8e4245dSRobert Muirthe input text will be found in the dictionary), however the problem
*e8e4245dSRobert Muirstill remains (please see the page above for more detailed description).<br>
*e8e4245dSRobert Muir<br>
*e8e4245dSRobert MuirThe implementation described here uses an algorithmic method. This
*e8e4245dSRobert Muirmethod
*e8e4245dSRobert Muirand particular algorithm implementation are described in detail in
*e8e4245dSRobert Muir[1][2].
*e8e4245dSRobert MuirThe main advantage of algorithmic stemmers is their ability to process
*e8e4245dSRobert Muirpreviously
*e8e4245dSRobert Muirunseen word forms with high accuracy. This particular algorithm uses a
*e8e4245dSRobert Muirset
*e8e4245dSRobert Muirof
*e8e4245dSRobert Muirtransformation rules (patch commands), which describe how a word with a
*e8e4245dSRobert Muirgiven pattern should be transformed to its stem. These rules are first
*e8e4245dSRobert Muirlearned from a training corpus. They don't
*e8e4245dSRobert Muircover
*e8e4245dSRobert Muirall possible cases, so there is always some loss of precision/recall
*e8e4245dSRobert Muir(which
*e8e4245dSRobert Muirmeans that even the words from the training corpus are sometimes
*e8e4245dSRobert Muirincorrectly stemmed).<br>
*e8e4245dSRobert Muir<h2>Algorithm and implementation<span style="font-style: italic;"></span></h2>
*e8e4245dSRobert MuirThe algorithm and its Java implementation is described in detail in the
*e8e4245dSRobert Muirpublications cited below. Here's just a short excerpt from [2]:<br>
*e8e4245dSRobert Muir<br>
*e8e4245dSRobert Muir<center>
*e8e4245dSRobert Muir<div style="width: 80%;" align="justify">"The aim is separation of the
*e8e4245dSRobert Muirstemmer execution code from the data
*e8e4245dSRobert Muirstructures [...]. In other words, a static algorithm configurable by
*e8e4245dSRobert Muirdata must be developed. The word transformations that happen in the
*e8e4245dSRobert Muirstemmer must be then encoded to the data tables.<br>
*e8e4245dSRobert Muir<br>
*e8e4245dSRobert MuirThe tacit input of our method is a sample set (a so-called dictionary)
*e8e4245dSRobert Muirof words (as keys) and their stems. Each record can be equivalently
*e8e4245dSRobert Muirstored as a key and the record of key's transformation to its
*e8e4245dSRobert Muirrespective stem. The transformation record is termed a patch command
*e8e4245dSRobert Muir(P-command). It must be ensured that P-commands are universal, and that
*e8e4245dSRobert MuirP-commands can transform any word to its stem. Our solution[6,8] is
*e8e4245dSRobert Muirbased on the Levenstein metric [10], which produces P-command as the
*e8e4245dSRobert Muirminimum cost path in a directed graph.<br>
*e8e4245dSRobert Muir<br>
*e8e4245dSRobert MuirOne can imagine the P-command as an algorithm for an operator (editor)
*e8e4245dSRobert Muirthat rewrites a string to another string. The operator can use these
*e8e4245dSRobert Muirinstructions (PP-command's): <span style="font-weight: bold;">removal </span>-
*e8e4245dSRobert Muirdeletes a sequence of characters starting at the current cursor
*e8e4245dSRobert Muirposition and moves the cursor to the next character. The length of this
*e8e4245dSRobert Muirsequence is the parameter; <span style="font-weight: bold;">insertion </span>-
*e8e4245dSRobert Muirinserts a character ch, without moving the cursor. The character ch is
*e8e4245dSRobert Muira parameter; <span style="font-weight: bold;">substitution&nbsp;</span>
*e8e4245dSRobert Muir- rewrites a character at the current cursor position to the character
*e8e4245dSRobert Muirch and moves the cursor to the next character. The character ch is a
*e8e4245dSRobert Muirparameter; <span style="font-weight: bold;">no operation</span> (NOOP)
*e8e4245dSRobert Muir- skip a sequence of characters starting at the current cursor
*e8e4245dSRobert Muirposition. The length of this sequence is the parameter.<br>
*e8e4245dSRobert Muir<br>
*e8e4245dSRobert MuirThe P-commands are applied from the end of a word (right to left). This
*e8e4245dSRobert Muirassumption can reduce the set of P-command's, because the last NOOP,
*e8e4245dSRobert Muirmoving the cursor to the end of a string without any changes, need not
*e8e4245dSRobert Muirbe stored."</div>
*e8e4245dSRobert Muir</center>
*e8e4245dSRobert Muir<br>
*e8e4245dSRobert MuirData structure used to keep the dictionary (words and their P-commands)
*e8e4245dSRobert Muiris a trie. Several optimization steps are applied in turn to reduce and
*e8e4245dSRobert Muiroptimize the initial trie, by eliminating useless information and
*e8e4245dSRobert Muirshortening the paths in the trie.<br>
*e8e4245dSRobert Muir<br>
*e8e4245dSRobert MuirFinally, in order to obtain a stem from the input word, the word is
*e8e4245dSRobert Muirpassed once through a matching path in the trie (applying at each node
*e8e4245dSRobert Muirthe P-commands stored there). The result is a word stem.<br>
*e8e4245dSRobert Muir<h2>Corpus</h2>
*e8e4245dSRobert Muir<p><i>(to be completed...)</i></p>
*e8e4245dSRobert Muir<p>The following Polish corpora have been used:</p>
*e8e4245dSRobert Muir<ul>
*e8e4245dSRobert Muir  <li><a
*e8e4245dSRobert Muir href="http://sourceforge.net/project/showfiles.php?group_id=49316&amp;package_id=65354">Polish
*e8e4245dSRobert Muirdictionary
*e8e4245dSRobert Muirfrom ispell distribution</a></li>
*e8e4245dSRobert Muir  <li><a href="http://www.mimuw.edu.pl/polszczyzna/">Wzbogacony korpus
*e8e4245dSRobert MuirsÅ‚ownika frekwencyjnego</a></li>
*e8e4245dSRobert Muir<!--<li><a href="http://www.korpus.pl">Korpus IPI PAN</a></li>-->
*e8e4245dSRobert Muir<!--<li>The Bible (so called "Warsaw Bible" or "Brytyjka")</li>--><li>The
*e8e4245dSRobert MuirBible (so called "TysiÄ…clecia") - unauthorized electronic version</li>
*e8e4245dSRobert Muir  <li><a
*e8e4245dSRobert Muir href="http://www.mimuw.edu.pl/polszczyzna/Debian/sam34_3.4a.02-1_i386.deb">Analizator
*e8e4245dSRobert Muirmorfologiczny SAM v. 3.4</a> - this was used to recover lemmas
*e8e4245dSRobert Muirmissing from other texts</li>
*e8e4245dSRobert Muir</ul>
*e8e4245dSRobert Muir<p>This step was the most time-consuming - and it would probably be
*e8e4245dSRobert Muireven more tedious and difficult if not for the
*e8e4245dSRobert Muirhelp of
*e8e4245dSRobert Muir<a href="http://www.python.org/">Python</a>. The source texts had to be
*e8e4245dSRobert Muirbrought to a common encoding (UTF-8) - some of them used quite ancient
*e8e4245dSRobert Muirencodings like Mazovia or DHN - and then scripts were written to
*e8e4245dSRobert Muircollect all lemmas and
*e8e4245dSRobert Muirinflected forms from the source texts. In cases when the source text
*e8e4245dSRobert Muirwas not
*e8e4245dSRobert Muirtagged,
*e8e4245dSRobert MuirI used the SAM analyzer to produce lemmas. In cases of ambiguous
*e8e4245dSRobert Muirlemmatization I decided to put references to inflected forms from all
*e8e4245dSRobert Muirbase forms.<br>
*e8e4245dSRobert Muir</p>
*e8e4245dSRobert Muir<p>All grammatical categories were allowed to appear in the corpus,
*e8e4245dSRobert Muiri.e. nouns, verbs, adjectives, numerals, and pronouns. The resulting
*e8e4245dSRobert Muircorpus consisted of roughly 87,000+ inflection sets, i.e. each set
*e8e4245dSRobert Muirconsisted of one base form (lemma) and many inflected forms. However,
*e8e4245dSRobert Muirbecause of the nature of the training method I restricted these sets to
*e8e4245dSRobert Muirinclude only those where there were at least 4 inflected forms. Sets
*e8e4245dSRobert Muirwith 3 or less inflected forms were removed, so that the final corpus
*e8e4245dSRobert Muirconsisted of ~69,000 unique sets, which in turn contained ~1.5 mln
*e8e4245dSRobert Muirinflected forms. <br>
*e8e4245dSRobert Muir</p>
*e8e4245dSRobert Muir<h2>Testing</h2>
*e8e4245dSRobert Muir<p>I tested the stemmer tables produced using the implementation
*e8e4245dSRobert Muirdescribed above. The following sections give some details about
*e8e4245dSRobert Muirthe testing setup.
*e8e4245dSRobert Muir</p>
*e8e4245dSRobert Muir<h3>Testing procedure</h3>
*e8e4245dSRobert Muir<p>The testing procedure was as follows:
*e8e4245dSRobert Muir</p>
*e8e4245dSRobert Muir<ul>
*e8e4245dSRobert Muir  <li>the whole corpus of ~69,000 unique sets was shuffled, so that the
*e8e4245dSRobert Muirinput sets were in random order.</li>
*e8e4245dSRobert Muir  <li>the corpus was split into two parts - one with 30,000 sets (Part
*e8e4245dSRobert Muir1), the other with ~39,000 sets (Part 2).</li>
*e8e4245dSRobert Muir  <li>Training samples were drawn in sequential order from the Part 1.
*e8e4245dSRobert MuirSince the sets were already randomized, the training samples were also
*e8e4245dSRobert Muirrandomized, but this procedure ensured that each larger training sample
*e8e4245dSRobert Muircontained all smaller samples.</li>
*e8e4245dSRobert Muir  <li>Part 2 was used for testing. Note: this means that the testing
*e8e4245dSRobert Muirrun used <em>only</em> words previously unseen during the training
*e8e4245dSRobert Muirphase. This is the worst scenario, because it means that stemmer must
*e8e4245dSRobert Muirextrapolate the learned rules to unknown cases. This also means that in
*e8e4245dSRobert Muira real-life case (where the input is a mix between known and unknown
*e8e4245dSRobert Muirwords) the F-measure of the stemmer will be even higher than in the
*e8e4245dSRobert Muirtable below.</li>
*e8e4245dSRobert Muir</ul>
*e8e4245dSRobert Muir<h3>Test results</h3>
*e8e4245dSRobert Muir<p>The following table summarizes test results for varying sizes
*e8e4245dSRobert Muirof training samples. The meaning of the table columns is
*e8e4245dSRobert Muirdescribed below:
*e8e4245dSRobert Muir</p>
*e8e4245dSRobert Muir<ul>
*e8e4245dSRobert Muir  <li><b>training sets:</b> the number of training sets. One set
*e8e4245dSRobert Muirconsists of one lemma and at least 4 and up to ~80 inflected forms
*e8e4245dSRobert Muir(including pre- and suffixed forms).</li>
*e8e4245dSRobert Muir  <li><b>testing forms:</b> the number of testing forms. Only inflected
*e8e4245dSRobert Muirforms were used in testing.</li>
*e8e4245dSRobert Muir  <li><b>stem OK:</b> the number of cases when produced output was a
*e8e4245dSRobert Muircorrect (unique) stem. Note: quite often correct stems were also
*e8e4245dSRobert Muircorrect lemmas.</li>
*e8e4245dSRobert Muir  <li><b>lemma OK:</b> the number of cases when produced output was a
*e8e4245dSRobert Muircorrect lemma.</li>
*e8e4245dSRobert Muir  <li><b>missing:</b> the number of cases when stemmer was unable to
*e8e4245dSRobert Muirprovide any output.</li>
*e8e4245dSRobert Muir  <li><b>stem bad:</b> the number of cases when produced output was a
*e8e4245dSRobert Muirstem, but already in use identifying a different set.</li>
*e8e4245dSRobert Muir  <li><b>lemma bad:</b> the number of cases when produced output was an
*e8e4245dSRobert Muirincorrect lemma. Note: quite often in such case the output was a
*e8e4245dSRobert Muircorrect stem.</li>
*e8e4245dSRobert Muir  <li><b>table size:</b> the size in bytes of the stemmer table.</li>
*e8e4245dSRobert Muir</ul>
*e8e4245dSRobert Muir<div align="center">
*e8e4245dSRobert Muir<table border="1" cellpadding="2" cellspacing="0">
*e8e4245dSRobert Muir  <tbody>
*e8e4245dSRobert Muir    <tr bgcolor="#a0b0c0">
*e8e4245dSRobert Muir      <th>Training sets</th>
*e8e4245dSRobert Muir      <th>Testing forms</th>
*e8e4245dSRobert Muir      <th>Stem OK</th>
*e8e4245dSRobert Muir      <th>Lemma OK</th>
*e8e4245dSRobert Muir      <th>Missing</th>
*e8e4245dSRobert Muir      <th>Stem Bad</th>
*e8e4245dSRobert Muir      <th>Lemma Bad</th>
*e8e4245dSRobert Muir      <th>Table size [B]</th>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>100</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>842209</td>
*e8e4245dSRobert Muir      <td>593632</td>
*e8e4245dSRobert Muir      <td>172711</td>
*e8e4245dSRobert Muir      <td>22331</td>
*e8e4245dSRobert Muir      <td>256642</td>
*e8e4245dSRobert Muir      <td>28438</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>200</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>862789</td>
*e8e4245dSRobert Muir      <td>646488</td>
*e8e4245dSRobert Muir      <td>153288</td>
*e8e4245dSRobert Muir      <td>16306</td>
*e8e4245dSRobert Muir      <td>223209</td>
*e8e4245dSRobert Muir      <td>48660</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>500</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>885786</td>
*e8e4245dSRobert Muir      <td>685009</td>
*e8e4245dSRobert Muir      <td>130772</td>
*e8e4245dSRobert Muir      <td>14856</td>
*e8e4245dSRobert Muir      <td>207204</td>
*e8e4245dSRobert Muir      <td>108798</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>700</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>909031</td>
*e8e4245dSRobert Muir      <td>704609</td>
*e8e4245dSRobert Muir      <td>107084</td>
*e8e4245dSRobert Muir      <td>15442</td>
*e8e4245dSRobert Muir      <td>211292</td>
*e8e4245dSRobert Muir      <td>139291</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>1000</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>926079</td>
*e8e4245dSRobert Muir      <td>725720</td>
*e8e4245dSRobert Muir      <td>90117</td>
*e8e4245dSRobert Muir      <td>14941</td>
*e8e4245dSRobert Muir      <td>207148</td>
*e8e4245dSRobert Muir      <td>183677</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>2000</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>942886</td>
*e8e4245dSRobert Muir      <td>746641</td>
*e8e4245dSRobert Muir      <td>73429</td>
*e8e4245dSRobert Muir      <td>14903</td>
*e8e4245dSRobert Muir      <td>202915</td>
*e8e4245dSRobert Muir      <td>313516</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>5000</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>954721</td>
*e8e4245dSRobert Muir      <td>759930</td>
*e8e4245dSRobert Muir      <td>61476</td>
*e8e4245dSRobert Muir      <td>14817</td>
*e8e4245dSRobert Muir      <td>201579</td>
*e8e4245dSRobert Muir      <td>640969</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>7000</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>956165</td>
*e8e4245dSRobert Muir      <td>764033</td>
*e8e4245dSRobert Muir      <td>60364</td>
*e8e4245dSRobert Muir      <td>14620</td>
*e8e4245dSRobert Muir      <td>198588</td>
*e8e4245dSRobert Muir      <td>839347</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>10000</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>965427</td>
*e8e4245dSRobert Muir      <td>775507</td>
*e8e4245dSRobert Muir      <td>50797</td>
*e8e4245dSRobert Muir      <td>14662</td>
*e8e4245dSRobert Muir      <td>196681</td>
*e8e4245dSRobert Muir      <td>1144537</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>12000</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>967664</td>
*e8e4245dSRobert Muir      <td>782143</td>
*e8e4245dSRobert Muir      <td>48722</td>
*e8e4245dSRobert Muir      <td>14284</td>
*e8e4245dSRobert Muir      <td>192120</td>
*e8e4245dSRobert Muir      <td>1313508</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>15000</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>973188</td>
*e8e4245dSRobert Muir      <td>788867</td>
*e8e4245dSRobert Muir      <td>43247</td>
*e8e4245dSRobert Muir      <td>14349</td>
*e8e4245dSRobert Muir      <td>190871</td>
*e8e4245dSRobert Muir      <td>1567902</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>17000</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>974203</td>
*e8e4245dSRobert Muir      <td>791804</td>
*e8e4245dSRobert Muir      <td>42319</td>
*e8e4245dSRobert Muir      <td>14333</td>
*e8e4245dSRobert Muir      <td>188862</td>
*e8e4245dSRobert Muir      <td>1733957</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir    <tr align="right">
*e8e4245dSRobert Muir      <td>20000</td>
*e8e4245dSRobert Muir      <td>1022985</td>
*e8e4245dSRobert Muir      <td>976234</td>
*e8e4245dSRobert Muir      <td>791554</td>
*e8e4245dSRobert Muir      <td>40058</td>
*e8e4245dSRobert Muir      <td>14601</td>
*e8e4245dSRobert Muir      <td>191373</td>
*e8e4245dSRobert Muir      <td>1977615</td>
*e8e4245dSRobert Muir    </tr>
*e8e4245dSRobert Muir  </tbody>
*e8e4245dSRobert Muir</table>
*e8e4245dSRobert Muir</div>
*e8e4245dSRobert Muir<p>I also measured the time to produce a stem (which involves
*e8e4245dSRobert Muirtraversing a trie,
*e8e4245dSRobert Muirretrieving a patch command and applying the patch command to the input
*e8e4245dSRobert Muirstring).
*e8e4245dSRobert MuirOn a machine running Windows XP (Pentium 4, 1.7 GHz, JDK 1.4.2_03
*e8e4245dSRobert MuirHotSpot),
*e8e4245dSRobert Muirfor tables ranging in size from 1,000 to 20,000 cells, the time to
*e8e4245dSRobert Muirproduce a
*e8e4245dSRobert Muirsingle stem varies between 5-10 microseconds.<br>
*e8e4245dSRobert Muir</p>
*e8e4245dSRobert Muir<p>This means that the stemmer can process up to <span
*e8e4245dSRobert Muir style="font-weight: bold;">200,000 words per second</span>, an
*e8e4245dSRobert Muiroutstanding result when compared to other stemmers (Morfeusz - ~2,000
*e8e4245dSRobert Muirw/s, FormAN (MS Word analyzer) - ~1,000 w/s).<br>
*e8e4245dSRobert Muir</p>
*e8e4245dSRobert Muir<p>The package contains a class <code>org.getopt.stempel.Benchmark</code>,
*e8e4245dSRobert Muirwhich you can use to produce reports
*e8e4245dSRobert Muirlike the one below:<br>
*e8e4245dSRobert Muir</p>
*e8e4245dSRobert Muir<pre>--------- Stemmer benchmark report: -----------<br>Stemmer table:  /res/tables/stemmer_2000.out<br>Input file:     ../test3.txt<br>Number of runs: 3<br><br> RUN NUMBER:            1       2       3<br> Total input words      1378176 1378176 1378176<br> Missed output words    112     112     112<br> Time elapsed [ms]      6989    6940    6640<br> Hit rate percent       99.99%  99.99%  99.99%<br> Miss rate percent      00.01%  00.01%  00.01%<br> Words per second       197192  198584  207557<br> Time per word [us]     5.07    5.04    4.82<br></pre>
*e8e4245dSRobert Muir<h2>Summary</h2>
*e8e4245dSRobert Muir<p>The results of these tests are very encouraging. It seems that using
*e8e4245dSRobert Muirthe
*e8e4245dSRobert Muirtraining corpus and the stemming algorithm described above results in a
*e8e4245dSRobert Muirhigh-quality stemmer useful for most applications. Moreover, it can
*e8e4245dSRobert Muiralso
*e8e4245dSRobert Muirbe used as a better than average lemmatizer.</p>
*e8e4245dSRobert Muir<p>Both the author of the implementation
*e8e4245dSRobert Muir(Leo Galambos, &lt;leo.galambos AT egothor DOT org&gt;) and the author
*e8e4245dSRobert Muirof this
*e8e4245dSRobert Muircompilation (Andrzej Bialecki &lt;ab AT getopt DOT org&gt;) would
*e8e4245dSRobert Muirappreciate any
*e8e4245dSRobert Muirfeedback and suggestions for further improvements.</p>
*e8e4245dSRobert Muir<h2>Bibliography</h2>
*e8e4245dSRobert Muir<ol>
*e8e4245dSRobert Muir  <li>Galambos, L.: Multilingual Stemmer in Web Environment, PhD
*e8e4245dSRobert MuirThesis,
*e8e4245dSRobert MuirFaculty of Mathematics and Physics, Charles University in Prague, in
*e8e4245dSRobert Muirpress.</li>
*e8e4245dSRobert Muir  <li>Galambos, L.: Semi-automatic Stemmer Evaluation. International
*e8e4245dSRobert MuirIntelligent Information Processing and Web Mining Conference, 2004,
*e8e4245dSRobert MuirZakopane, Poland.</li>
*e8e4245dSRobert Muir  <li>Galambos, L.: Lemmatizer for Document Information Retrieval
*e8e4245dSRobert MuirSystems in JAVA.<span style="text-decoration: underline;"> </span><a
*e8e4245dSRobert Muir class="moz-txt-link-rfc2396E"
*e8e4245dSRobert Muir href="http://www.informatik.uni-trier.de/%7Eley/db/conf/sofsem/sofsem2001.html#Galambos01">&lt;http://www.informatik.uni-trier.de/%7Eley/db/conf/sofsem/sofsem2001.html#Galambos01&gt;</a>
*e8e4245dSRobert MuirSOFSEM 2001, Piestany, Slovakia. <br>
*e8e4245dSRobert Muir  </li>
*e8e4245dSRobert Muir</ol>
*e8e4245dSRobert Muir<br>
*e8e4245dSRobert Muir<br>
*e8e4245dSRobert Muir</body>
*e8e4245dSRobert Muir</html>