Если воспользоваться встроенной клавиатурой Google Keyboard в последней версии Android KitKat, то можно собственноручно проверить, что в ней действует фильтр, который блокирует автодополнение «плохих» слов. По идее, это сделано для того, чтобы люди случайно не набрали какое-нибудь оскорбительное выражение против своего желания, как это часто бывает. Фильтрация ввода отключается в настройках клавиатуры.
Недавно словарные базы Android 4.4 были опубликованы в открытом доступе (зеркало) — и там открылось много интересного.
Текстовый файл для каждого языка содержит список слов, в порядке частоты их упоминаемости.
Начало словарного файла для русского языка
dictionary=main:ru,locale=ru,description=Русский,date=1376897704,version=37,MULTIPLE_WORDS_DEMOTION_RATE=50 word=по,f=192,flags=,originalFreq=192 word=года,f=191,flags=,originalFreq=191 word=из,f=191,flags=,originalFreq=191 word=не,f=191,flags=,originalFreq=191 word=году,f=188,flags=,originalFreq=188 word=что,f=188,flags=,originalFreq=188 word=был,f=187,flags=,originalFreq=187 word=для,f=187,flags=,originalFreq=187 word=от,f=187,flags=,originalFreq=187 word=его,f=186,flags=,originalFreq=186 word=как,f=186,flags=,originalFreq=186 word=до,f=182,flags=,originalFreq=182 word=он,f=182,flags=,originalFreq=182 word=за,f=181,flags=,originalFreq=181 word=или,f=180,flags=,originalFreq=180 word=на,f=180,flags=,originalFreq=204
Например, англоязычный файл содержит около 165 тыс. слов. Самое интересное скрывается в конце этого файла — там есть отдельный список из около 1400 запрещенных слов, которые фильтруются при вводе с клавиатуры. Список, конечно, забавный: в нем присутствуют многие медицинские термины и жаргонизмы. Естественно, запрещена вся сексуальная лексика, включая двусмысленные выражения вроде «делать любовь» (lovemaking), «завинчивание» (screwing) и «сношения» (intercourse). Вместе с ними запрещены даже слова вроде «тампакс», «лактация», «без бюстгальтера» (braless) и «презерватив». Почему-то запрещено слово «гик» (geek).
Отдельными местами список противоречив. Например, в нем запрещены «куклуксклановец» и «супрематист», но вполне разрешены «нацисты».
Как ни странно, в русском словаре (файл ru_wordlist.combined) список запрещенных слов содержит скромные 17 слов. Компания Google здесь явно не доработала, ведь русский язык по семантическим способностям ничем не уступает английскому, это даже обидно. Даже по размеру в байтах российский словарь больше английского: 11,4 МБ против 6,9 МБ.
Кстати, среди 17-ти запрещенных русских слов — бисексуальность, дБ, мда, мм, рН и связывание. Остальные 11 слов еще можно признать ненормативной лексикой, но за что провинились безобидные децибел и уровень кислотности — совершенно непонятно.