[unicode] Allowing wide chars in unicode properties

2015-09-23 00:34:07 -04:00
parent f13e9fad90
commit 13bcc35523
1 changed files with 26 additions and 12 deletions
--- a/scripts/geodata/i18n/unicode_properties.py
+++ b/scripts/geodata/i18n/unicode_properties.py
@@ -18,6 +18,7 @@ import subprocess
 from cStringIO import StringIO
 from collections import OrderedDict, defaultdict
 from itertools import islice
 from lxml import etree
@@ -30,6 +31,7 @@ sys.path.append(os.path.realpath(os.path.join(os.pardir, os.pardir)))
 from geodata.encoding import safe_encode, safe_decode
 from geodata.file_utils import ensure_dir, download_file
 from geodata.string_utils import NUM_CODEPOINTS, wide_unichr
 from cldr_languages import *
 from download_cldr import download_cldr
@@ -65,8 +67,6 @@ WORD_BREAKS_URL = 'http://unicode.org/Public/UNIDATA/auxiliary/WordBreakProperty
 ISO_15924_URL = 'http://unicode.org/iso15924/iso15924.txt.zip'
 NUM_CODEPOINTS = 65536
 scripts_header_template = u'''#ifndef UNICODE_SCRIPT_TYPES_H
 #define UNICODE_SCRIPT_TYPES_H
@@ -114,7 +114,7 @@ UNKNOWN_SCRIPT = 'Unknown'
 def parse_char_range(r):
-    return [unicode_to_integer(u) for u in r.split('..') if len(u) < 5]
+    return [unicode_to_integer(u) for u in r.split('..')]
 def get_chars_by_script():
@@ -194,9 +194,9 @@ def get_unicode_blocks():
        if len(char_range) == 2:
            for i in xrange(char_range[0], char_range[1] + 1):
-                blocks[block.lower()].append(unichr(i))
+                blocks[block.lower()].append(wide_unichr(i))
        elif char_range:
-            blocks[block.lower()].append(unichr(char_range[0]))
+            blocks[block.lower()].append(wide_unichr(char_range[0]))
    return dict(blocks)
@@ -213,9 +213,9 @@ def get_unicode_properties():
        if len(char_range) == 2:
            for i in xrange(char_range[0], char_range[1] + 1):
-                props[prop.lower()].append(unichr(i))
+                props[prop.lower()].append(wide_unichr(i))
        elif char_range:
-            props[prop.lower()].append(unichr(char_range[0]))
+            props[prop.lower()].append(wide_unichr(char_range[0]))
    derived_props_file = open(LOCAL_DERIVED_CORE_PROPS_FILE)
    for line in parse_file(derived_props_file):
@@ -224,9 +224,9 @@ def get_unicode_properties():
        if len(char_range) == 2:
            for i in xrange(char_range[0], char_range[1] + 1):
-                props[prop.lower()].append(unichr(i))
+                props[prop.lower()].append(wide_unichr(i))
        elif char_range:
-            props[prop.lower()].append(unichr(char_range[0]))
+            props[prop.lower()].append(wide_unichr(char_range[0]))
    return dict(props)
@@ -243,9 +243,9 @@ def get_word_break_properties():
        if len(char_range) == 2:
            for i in xrange(char_range[0], char_range[1] + 1):
-                props[prop].append(unichr(i))
+                props[prop].append(wide_unichr(i))
        elif char_range:
-            props[prop].append(unichr(char_range[0]))
+            props[prop].append(wide_unichr(char_range[0]))
    return dict(props)
@@ -340,6 +340,16 @@ def extract_language_scripts(xml):
    return language_scripts
 def batch_iter(iterable, batch_size):
    source_iter = iter(iterable)
    while True:
        batch = list(islice(source_iter, batch_size))
        if len(batch) > 0:
            yield batch
        else:
            return
 def get_script_languages():
    # For some languages (Greek, Thai, etc.), use of an unambiguous script is sufficient
    # to identify the language. We keep track of those single language scripts to inform
@@ -398,6 +408,10 @@ def main(out_dir):
    if not os.path.exists(CLDR_SUPPLEMENTAL_DATA):
        download_cldr()
    chars = get_chars_by_script()
    all_scripts = build_master_scripts_list(chars)
    script_codes = get_script_codes(all_scripts)
    script_languages = get_script_languages()
    max_langs = 0
@@ -420,7 +434,7 @@ def main(out_dir):
    # Generate C data file
    char_scripts_data = u''',
-    '''.join(['SCRIPT_{}'.format((script or UNKNOWN_SCRIPT).upper()) for script in chars])
+    '''.join([', '.join([str(all_scripts[sc or UNKNOWN_SCRIPT]) for sc in batch]) for batch in batch_iter(chars, 25)])
    script_codes_data = u''',
    '''.join([script_code_template.format(name=name.upper(), code=code) for code, name in script_codes.iteritems()])