- 01
- 02
- 03
- 04
- 05
- 06
- 07
- 08
- 09
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
\message{Russian hyphenation patterns by D. Vulis,}
\message{modified by M.Vorontsova and S.Lvovski.}
\message{Version date: 24.02.96}
--- неинтересная часть пропущена ---
{
\lccode`\a=`\м
\lccode`\b=`\г
\lccode`\c=`\у
\lccode`\d=`\е
\lccode`\e=`\с
\lccode`\f=`\х
\lccode`\g=`\у
\lccode`\h=`\к
\lccode`\i=`\г
\lccode`\j=`\х
\lccode`\k=`\м
\lccode`\l=`\н
\lccode`\n=`\ъ
\lccode`\o=`\з
\lccode`\p=`\й
\lccode`\q=`\ю
\lccode`\r=`\д
\lccode`\s=`\у
\lccode`\t=`\д
\lccode`\u=`\х
\lccode`\v=`\я
\lccode`\w=`\ы
\lccode`\x=`\z
\lccode`\y=`\ь
\lccode`\z=`\ч
\lowercase{
\patterns{
6jcp. 6usv. 6fgq. 6ucdk.
}
}
}
Отрывок из образцов переноса слов для TeX'а. Авторы постеснялись написать открытым текстом четыре образца (строка 35), поэтому зашифровали их простой подстановкой.
Читателю предлагается расшифровать эти образцы и догадаться, чего испугались авторы.
inkanus-gray 22.04.2016 21:05 # 0
gost 22.04.2016 21:13 # +7
inkanus-gray 22.04.2016 21:14 # +2
Elvenfighter 22.04.2016 23:05 # 0
inkanus-gray 22.04.2016 23:29 # +5
This section contains a brief explanation of Knuth's algorithm, in
case you missed it from the TeX books. We'll use the semi-word
"example" as our running example.
Since the beginning and end of a word are special, the algorithm is
actually run over the prepared word (prep_word in the source)
".example.". Knuths algorithm basically just does pattern matches from
the rule set, then applies the matches. The patterns in this case that
match are "xa", "xam", "mp", and "pl". These are actually stored as
"x1a", "xam3", "4m1p", and "1p2l2". Whenever numbers appear between
the letters, they are added in. If two (or more) patterns have numbers
in the same place, the highest number wins. Here's the example:
Finally, hyphens are placed wherever odd numbers appear. They are,
however, suppressed after the first letter and before the last letter
of the word (TeX actually suppresses them before the next-to-last, as
well). So, it's "ex-am-ple", which is correct.
Точка означает начало либо конец слова (как в регулярках ^ или $). Чётные числа указывают на нежелательность переноса в этом месте, нечётные — на желательность. Если слову соответствуют несколько образцов и образцы накладываются, для каждой пары букв выигрывает наивысшее число среди образцов.
Короче, 6 и точка означают, что перед слогами хуй$, хую$, хуе$, хуем$ перенос делать нежелательно, дабы не смущать воспитанниц Института благородных девиц. Перекрыть это правило можно, если добавить образец типа 7ху
inkanus-gray 23.04.2016 12:39 # 0
Desktop 05.09.2021 18:13 # 0
guest 22.04.2016 23:30 # −1
inkanus-gray 22.04.2016 23:34 # +3
guest 23.04.2016 00:17 # −1
guest 23.04.2016 14:17 # +6
inkanus-gray 23.04.2016 16:13 # +6
guest 22.04.2016 22:02 # −1
kegdan 23.04.2016 00:07 # +6
inkanus-gray 23.04.2016 11:09 # +4
Если несколько кодов могут отображаться на один, то это сжимающее отображение, т. е. хэш.
Если один код может отображаться на несколько, как здесь, то это... разжимающее отображение. Большое количество вореций зашифрованной информации не позволяет восстановить её с помощью частотного анализа, не зная ключа.
Недостаток разжимающего отображения заключается в том, что алфавит зашифрованного текста должен быть мощнее алфавита источника.
Steve_Brown 23.04.2016 11:58 # +3
inkanus-gray 23.04.2016 12:30 # +3
Отсюда:
C:\Program Files\LibreOffice 5\share\extensions\dict-ru\hyph_ru_RU.dic
Если РКН запретит нецензурную лексику в файлах, то скачать Опенофис/Либрофис не получится...
Vasiliy 23.04.2016 12:34 # +1
CEHT9I6PbCKuu_nemyx 05.09.2021 07:29 # 0
guest6 05.09.2021 16:33 # 0
CEHT9I6PbCKuu_nemyx 05.09.2021 17:43 # 0
Не подскажешь список того, что «must have»?
Desktop 05.09.2021 17:47 # +1
guest6 05.09.2021 17:52 # +1
https://lh4.googleusercontent.com/-0RTe0qQVcec/T6lrwK9SGMI/AAAAAAAABe4/CJxl-Xp6wY0/s640/P1130754_2012-05-08T16-03-22.JPG
https://www.phantom.sannata.org/viewtopic.php?t=6133&start=693
Desktop 05.09.2021 18:08 # 0
SQL ERROR [ mysqli ]
MySQL server has gone away [2006]
An sql error occurred while fetching this page. Please contact an administrator if this problem persists.
bormand 05.09.2021 18:13 # 0
Уже 15 лет как ушёл...
guest6 05.09.2021 18:15 # 0
CEHT9I6PbCKuu_nemyx 05.09.2021 18:18 # 0
Нифига себе сколько народу на «Говнокоде»! Сайт положили сразу после публикации ссылки.
guest6 05.09.2021 18:43 # 0
3_14dar 23.04.2016 15:03 # 0
6хрь.
Это же не слоги?
bormand 23.04.2016 15:37 # +4
Т.е. если у тебя есть и1х и 6хрь, то сти-хи будут переноситься, а вихрь - нет.
Пусть инканус поправит, если я гоню.
Steve_Brown 23.04.2016 16:51 # +1
guest 23.04.2016 16:52 # −1
inkanus-gray 23.04.2016 17:14 # +2
Алгоритм первоначально был рассчитан на английский и на всякие романо-германские языки, которым свойственны буквосочетания (вроде дифтонгов или обозначения звука [ш] несколькими буквами), так что без детального анализа нельзя разобрать слово на гласные-согласные.
guest 23.04.2016 17:15 # +1
3_14dar 24.04.2016 04:17 # 0
inkanus-gray 24.04.2016 12:01 # 0
inkanus-gray 24.04.2016 12:02 # 0
Или этот:
inkanus-gray 24.04.2016 12:02 # 0
inkanus-gray 24.04.2016 12:02 # 0
wvxvw 24.04.2016 13:01 # +3
inkanus-gray 24.04.2016 13:21 # +1
Для устранения «тоннеля» приходится добавлять пробелы в случайных местах. ТеХ, кажется, с этой задачей справляется, а в текстах, свёрстанных в Ворде, нередко вижу «тоннели».
Но это уже к алгоритму переносов имеет отдалённое отношение.
guest 23.04.2016 15:54 # −1
bormand 10.02.2019 10:06 # 0
> нецензурной лексики
Во времена однобайтных кодировок хуи в рандомных данных встречались довольно часто.
O4epegHou_nemyx 10.02.2019 11:42 # 0
guest8 10.02.2019 13:50 # −999
Kakou-mo_nemyx 10.02.2019 14:37 # 0
guest8 10.02.2019 14:43 # −999
Kakou-mo_nemyx 10.02.2019 14:50 # 0
bormand 23.04.2016 12:02 # 0
inkanus-gray 23.04.2016 12:06 # +4
P.S. Не могу придумать пример слова, заканчивающегося на «-хуе».
bormand 23.04.2016 12:16 # +2
А "страхуемый" он может перенести как стра-
хуемый?
inkanus-gray 23.04.2016 12:20 # +2
inkanus-gray 23.04.2016 18:38 # +3
1. Как получают эти паттерны? Вручную, основываясь на свою интуицию, выдирают из словаря или есть какие-нибудь автоматические алгоритмы получения паттернов?
2. Табличка паттернов может быть использована для получения новых слов в бредогенераторе. Для этого нужно выбирать из неё достаточно длинные паттерны. В генерации связных текстов это никак не поможет, но может выдать что-нибудь типа «верблюдается» и «одновременьше».
bakagaijin 23.04.2016 23:21 # +4
inkanus-gray 24.04.2016 13:25 # +1
bormand 24.04.2016 13:38 # 0
kegdan 24.04.2016 13:55 # 0
inkanus-gray 24.04.2016 14:02 # 0
kegdan 24.04.2016 14:03 # 0
inkanus-gray 24.04.2016 14:06 # 0
kegdan 24.04.2016 14:09 # 0
скорее всего эти производные тоже заносятся
тут думать надо
inkanus-gray 24.04.2016 14:20 # 0
В словарях, которые я видел, общее число паттернов от 3 до 6 тысяч, хотя исходная база содержит около миллиона слов.
kegdan 24.04.2016 14:28 # 0
bormand 24.04.2016 14:31 # 0
kegdan 24.04.2016 14:32 # 0
cmepmop 10.02.2019 20:36 # 0
O4epegHou_nemyx 10.02.2019 09:51 # 0
ХУЙ!
Kakou-mo_nemyx 10.02.2019 15:15 # 0
https://en.wiktionary.org/wiki/huy
А ещё в табасаранском языке слово «хуй» означает собаку, в монгольском языке слово «хуй» означает рулон или ножны. А «хуйхуй» —– это самоназвание народа дунгане:
https://en.wikipedia.org/wiki/Hui_people
Сейчас в литературе и в СМИ вместо «хуйхуй» стыдливо употребляют «облагороженное» слово «хуэй».