dev-tools/scripts/create_line_file_docs.py

*3bedc087SDawid Weiss#!/usr/bin/env python3
*3bedc087SDawid Weiss# -*- coding: utf-8 -*-
*3bedc087SDawid Weiss# Licensed to the Apache Software Foundation (ASF) under one or more
*3bedc087SDawid Weiss# contributor license agreements.  See the NOTICE file distributed with
*3bedc087SDawid Weiss# this work for additional information regarding copyright ownership.
*3bedc087SDawid Weiss# The ASF licenses this file to You under the Apache License, Version 2.0
*3bedc087SDawid Weiss# (the "License"); you may not use this file except in compliance with
*3bedc087SDawid Weiss# the License.  You may obtain a copy of the License at
*3bedc087SDawid Weiss#
*3bedc087SDawid Weiss#     http://www.apache.org/licenses/LICENSE-2.0
*3bedc087SDawid Weiss#
*3bedc087SDawid Weiss# Unless required by applicable law or agreed to in writing, software
*3bedc087SDawid Weiss# distributed under the License is distributed on an "AS IS" BASIS,
*3bedc087SDawid Weiss# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*3bedc087SDawid Weiss# See the License for the specific language governing permissions and
*3bedc087SDawid Weiss# limitations under the License.
*3bedc087SDawid Weiss
e0c06ee6SMike McCandlessimport os
e0c06ee6SMike McCandlessimport gzip
e0c06ee6SMike McCandlessimport time
e0c06ee6SMike McCandlessimport random
e0c06ee6SMike McCandlessimport re
e0c06ee6SMike McCandlessimport urllib.request
e0c06ee6SMike McCandlessimport subprocess
e0c06ee6SMike McCandlessimport tempfile
e0c06ee6SMike McCandlessimport shutil
e0c06ee6SMike McCandless
e0c06ee6SMike McCandlessDEBUG = False
e0c06ee6SMike McCandless
e0c06ee6SMike McCandlessTARGET_DOC_CHARS = 1024
e0c06ee6SMike McCandless
e0c06ee6SMike McCandlessdef compress_with_seek_points(file_name_in, file_name_out, num_seek_points):
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  bytes_per_chunk = os.path.getsize(file_name_in) / num_seek_points
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  seek_points = []
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  if os.path.exists(file_name_out):
e0c06ee6SMike McCandless    os.remove(file_name_out)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  with open(file_name_in, 'rb') as f_in:
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    f_out = None
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    bytes_in_chunk = 0
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    chunk_count = 0
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    while True:
e0c06ee6SMike McCandless      if f_out is None:
e0c06ee6SMike McCandless        if os.path.exists(file_name_out):
e0c06ee6SMike McCandless          seek_points.append(os.path.getsize(file_name_out))
e0c06ee6SMike McCandless          print('  create chunk %s at pos=%s' % (chunk_count, seek_points[-1]))
e0c06ee6SMike McCandless        else:
e0c06ee6SMike McCandless          print('  create chunk %s at pos=0' % chunk_count)
e0c06ee6SMike McCandless        f_out = gzip.open(file_name_out, 'ab')
e0c06ee6SMike McCandless        chunk_count += 1
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless      line = f_in.readline()
e0c06ee6SMike McCandless      if len(line) == 0:
e0c06ee6SMike McCandless        break
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless      bytes_in_chunk += len(line)
e0c06ee6SMike McCandless      f_out.write(line)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless      if bytes_in_chunk > bytes_per_chunk and chunk_count < num_seek_points:
e0c06ee6SMike McCandless        f_out.close()
e0c06ee6SMike McCandless        f_out = None
e0c06ee6SMike McCandless        bytes_in_chunk = 0
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  with open(file_name_out[:-3] + '.seek', 'w') as f_out:
e0c06ee6SMike McCandless    for seek_point in seek_points:
e0c06ee6SMike McCandless      f_out.write('%d\n' % seek_point)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandlessre_tag = re.compile('<[^>]+?>')
e0c06ee6SMike McCandlessre_newlines = re.compile('\n+')
e0c06ee6SMike McCandlessre_space = re.compile('\s')
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless# used to find word break, for splitting docs into ~1 KB sized smaller docs:
e0c06ee6SMike McCandlessre_next_non_word_character = re.compile('\W', re.U)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandlessEUROPARL_V7_URL = 'https://www.statmt.org/europarl/v7/europarl.tgz'
e0c06ee6SMike McCandless
e0c06ee6SMike McCandlessdef split_docs(all_out, title_string, date_string, body_string):
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  '''
e0c06ee6SMike McCandless  Splits docs into smallish (~1 KB) sized docs, repeating same title and date
e0c06ee6SMike McCandless  '''
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  doc_count = 0
e0c06ee6SMike McCandless  while len(body_string) > 0:
e0c06ee6SMike McCandless    char_count = int(random.gauss(TARGET_DOC_CHARS, TARGET_DOC_CHARS/4))
e0c06ee6SMike McCandless    if char_count < 64:
e0c06ee6SMike McCandless      # trimmed normal?
e0c06ee6SMike McCandless      continue
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    m = re_next_non_word_character.search(body_string, char_count)
e0c06ee6SMike McCandless    if m is not None:
e0c06ee6SMike McCandless      char_count = m.start(0)
e0c06ee6SMike McCandless    else:
e0c06ee6SMike McCandless      char_count = len(body_string)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    body_string_fragment = body_string[:char_count].strip()
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    #print('write title %d, body %d' % (len(title_string), len(body_string_fragment)))
e0c06ee6SMike McCandless    all_out.write('%s\t%s\t%s\n' % (title_string, date_string, body_string_fragment))
e0c06ee6SMike McCandless    body_string = body_string[char_count:]
e0c06ee6SMike McCandless    doc_count += 1
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  return doc_count
e0c06ee6SMike McCandless
e0c06ee6SMike McCandlessdef sample_europarl():
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  # download europarl.tgz v7, if not already here (in cwd):
e0c06ee6SMike McCandless  file_name = 'europarl.tgz'
e0c06ee6SMike McCandless  if not os.path.exists(file_name):
e0c06ee6SMike McCandless    print('Download %s to %s...' % (EUROPARL_V7_URL, file_name))
e0c06ee6SMike McCandless    urllib.request.urlretrieve(EUROPARL_V7_URL, file_name + '.tmp')
e0c06ee6SMike McCandless    os.rename(file_name + '.tmp', file_name)
e0c06ee6SMike McCandless  else:
e0c06ee6SMike McCandless    print('%s already here; skipping download...' % file_name)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  if not DEBUG:
e0c06ee6SMike McCandless    tmp_dir_path = tempfile.mkdtemp()
e0c06ee6SMike McCandless  else:
e0c06ee6SMike McCandless    tmp_dir_path = '/tmp/tmp31ekzg75'
e0c06ee6SMike McCandless  print('Using tmp dir "%s"...' % tmp_dir_path)
e0c06ee6SMike McCandless  try:
e0c06ee6SMike McCandless    if not DEBUG:
e0c06ee6SMike McCandless      cmd = 'tar xzf %s -C %s' % (file_name, tmp_dir_path)
e0c06ee6SMike McCandless      print('Run: %s' % cmd)
e0c06ee6SMike McCandless      subprocess.run(cmd, shell=True)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    doc_count = 0
e0c06ee6SMike McCandless    skip_count = 0
e0c06ee6SMike McCandless    file_count = 0
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    all_txt_file_name = '%s/all.txt' % tmp_dir_path
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    print('Extract text...')
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    start_time = time.time()
e0c06ee6SMike McCandless    next_print_time = start_time + 3
e0c06ee6SMike McCandless    # normalize text a bit and concatenate all lines into single file, counting total lines/bytes
e0c06ee6SMike McCandless    with open(all_txt_file_name, 'w', encoding='utf-8') as all_out:
e0c06ee6SMike McCandless      for dir_path, dir_names, file_names in os.walk('%s/txt' % tmp_dir_path):
e0c06ee6SMike McCandless        for file_name in file_names:
e0c06ee6SMike McCandless          if file_name.endswith('.txt'):
e0c06ee6SMike McCandless            file_count += 1
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless            year, month, day = (int(x) for x in file_name[3:-4].split('-')[:3])
e0c06ee6SMike McCandless            if year >= 50:
e0c06ee6SMike McCandless              year = 1900 + year
e0c06ee6SMike McCandless            else:
e0c06ee6SMike McCandless              year = 2000 + year
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless            date_string = '%04d-%02d-%02d' % (year, month, day)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless            # unfortunately we need errors='ignore' since in Europarl v7, one file (pl/ep-09-10-22-009.txt) has invalid utf-8:
e0c06ee6SMike McCandless            chapter_count = 0
e0c06ee6SMike McCandless            with open('%s/%s' % (dir_path, file_name), 'r', encoding='utf-8', errors='ignore') as f_in:
e0c06ee6SMike McCandless              last_text = []
e0c06ee6SMike McCandless              last_title = None
e0c06ee6SMike McCandless              while True:
e0c06ee6SMike McCandless                line = f_in.readline()
e0c06ee6SMike McCandless                if line == '':
e0c06ee6SMike McCandless                  break
e0c06ee6SMike McCandless                line = line.strip()
e0c06ee6SMike McCandless                if line.startswith('<CHAPTER '):
e0c06ee6SMike McCandless                  if last_title is not None:
e0c06ee6SMike McCandless                    s = ' '.join(last_text)
e0c06ee6SMike McCandless                    s = re_tag.sub(' ', s)
e0c06ee6SMike McCandless                    s = re_newlines.sub(' ', s)
e0c06ee6SMike McCandless                    s = s.strip()
e0c06ee6SMike McCandless                    if len(s) > 0:
e0c06ee6SMike McCandless                      doc_count += split_docs(all_out, last_title, date_string, s)
e0c06ee6SMike McCandless                    else:
e0c06ee6SMike McCandless                      skip_count += 1
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless                    last_text = []
e0c06ee6SMike McCandless                    chapter_count += 1
e0c06ee6SMike McCandless                  while True:
e0c06ee6SMike McCandless                    last_title = f_in.readline()
e0c06ee6SMike McCandless                    if last_title == '':
e0c06ee6SMike McCandless                      last_title = None
e0c06ee6SMike McCandless                      break
e0c06ee6SMike McCandless                    last_title = re_tag.sub(' ', last_title).strip()
e0c06ee6SMike McCandless                    if len(last_title) > 0:
e0c06ee6SMike McCandless                      break
e0c06ee6SMike McCandless                  continue
e0c06ee6SMike McCandless                else:
e0c06ee6SMike McCandless                  last_text.append(line)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless              if last_title is not None:
e0c06ee6SMike McCandless                s = ' '.join(last_text)
e0c06ee6SMike McCandless                s = re_tag.sub(' ', s)
e0c06ee6SMike McCandless                s = re_newlines.sub(' ', s)
e0c06ee6SMike McCandless                s = s.strip()
e0c06ee6SMike McCandless                if len(s) > 0:
e0c06ee6SMike McCandless                  doc_count += split_docs(all_out, last_title, date_string, s)
e0c06ee6SMike McCandless                else:
e0c06ee6SMike McCandless                  skip_count += 1
e0c06ee6SMike McCandless                chapter_count += 1
e0c06ee6SMike McCandless              else:
e0c06ee6SMike McCandless                skip_count += 1
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless              if chapter_count > 0:
e0c06ee6SMike McCandless                #print('%s/%s: %d chapters' % (dir_path, file_name, chapter_count))
e0c06ee6SMike McCandless                pass
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless            now = time.time()
e0c06ee6SMike McCandless            if now > next_print_time:
e0c06ee6SMike McCandless              print('%4.1fs: keep %.2f K of %.2f K files (%.1f%%), %.2f M docs, %.2f GB...' % \
e0c06ee6SMike McCandless                    (now - start_time, (file_count - skip_count) / 1000, file_count / 1000,
e0c06ee6SMike McCandless                     100 * (file_count - skip_count) / file_count,
e0c06ee6SMike McCandless                     doc_count / 1000000, all_out.tell() / 1024/1024/1024))
e0c06ee6SMike McCandless              while next_print_time < now:
e0c06ee6SMike McCandless                next_print_time += 3
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    total_mb = os.path.getsize(all_txt_file_name)/1024/1024
e0c06ee6SMike McCandless    now = time.time()
e0c06ee6SMike McCandless    print('%4.1fs (done): keep %.2f K of %.2f K files (%.1f%%), %.2f M docs, %.2f GB...' % \
e0c06ee6SMike McCandless          (now - start_time, (file_count - skip_count) / 1000, file_count / 1000,
e0c06ee6SMike McCandless           100 * (file_count - skip_count) / file_count,
e0c06ee6SMike McCandless           doc_count / 1000000, os.path.getsize(all_txt_file_name) / 1024/1024/1024))
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    print('Shuffle...')
e0c06ee6SMike McCandless    subprocess.run('shuf %s > %s.shuffled' % (all_txt_file_name, all_txt_file_name), shell=True)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless    for mb in (20, 200, 2000):
e0c06ee6SMike McCandless      print('Sample %d MB file...' % mb)
e0c06ee6SMike McCandless      file_name_out = '%dmb.txt' % mb
e0c06ee6SMike McCandless      with open(file_name_out, 'w', encoding='utf-8') as f_out:
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless        chance = mb / total_mb
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless        with open(all_txt_file_name + '.shuffled', 'r', encoding='utf-8') as f:
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless          while True:
e0c06ee6SMike McCandless            line = f.readline()
e0c06ee6SMike McCandless            if len(line) == 0:
e0c06ee6SMike McCandless              break
e0c06ee6SMike McCandless            if random.random() <= chance:
e0c06ee6SMike McCandless              f_out.write(line)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless      print('  got %.2f MB' % (os.path.getsize(file_name_out)/1024/1024))
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless      compress_with_seek_points(file_name_out,
e0c06ee6SMike McCandless                                file_name_out + '.gz',
e0c06ee6SMike McCandless                                mb)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  finally:
e0c06ee6SMike McCandless    print('Removing tmp dir "%s"...' % tmp_dir_path)
e0c06ee6SMike McCandless    if not DEBUG:
e0c06ee6SMike McCandless      shutil.rmtree(tmp_dir_path)
e0c06ee6SMike McCandless
e0c06ee6SMike McCandless  print('\nWARNING: left ./europarl.tgz, which you should delete if you do not want it!\n')
e0c06ee6SMike McCandless
e0c06ee6SMike McCandlessif False:
e0c06ee6SMike McCandless  compress_with_seek_points('/x/tmp/europarl.lines.txt',
e0c06ee6SMike McCandless                            '/x/tmp/foo.txt.gz',
e0c06ee6SMike McCandless                            16)
e0c06ee6SMike McCandlesselse:
e0c06ee6SMike McCandless  sample_europarl()