Говнокод #19864 — Куча — Говнокод.ру

Куча / Говнокод #19864

+5
1. 01
2. 02
3. 03
4. 04
5. 05
6. 06
7. 07
8. 08
9. 09
10. 10
11. 11
12. 12
13. 13
14. 14
15. 15
16. 16
17. 17
18. 18
19. 19
20. 20
21. 21
22. 22
23. 23
24. 24
25. 25
26. 26
27. 27
28. 28
29. 29
30. 30
31. 31
32. 32
33. 33
34. 34
35. 35
36. 36
37. 37
38. 38
```
\message{Russian hyphenation patterns by D. Vulis,}
\message{modified by M.Vorontsova and S.Lvovski.}
\message{Version date: 24.02.96}

--- неинтересная часть пропущена ---

{
 \lccode`\a=`\м
 \lccode`\b=`\г
 \lccode`\c=`\у
 \lccode`\d=`\е
 \lccode`\e=`\с
 \lccode`\f=`\х
 \lccode`\g=`\у
 \lccode`\h=`\к
 \lccode`\i=`\г
 \lccode`\j=`\х
 \lccode`\k=`\м
 \lccode`\l=`\н
 \lccode`\n=`\ъ
 \lccode`\o=`\з
 \lccode`\p=`\й
 \lccode`\q=`\ю
 \lccode`\r=`\д
 \lccode`\s=`\у
 \lccode`\t=`\д
 \lccode`\u=`\х
 \lccode`\v=`\я
 \lccode`\w=`\ы
 \lccode`\x=`\z
 \lccode`\y=`\ь
 \lccode`\z=`\ч
 \lowercase{
  \patterns{
   6jcp. 6usv. 6fgq. 6ucdk.
  }
 }
}
```
Отрывок из образцов переноса слов для TeX'а. Авторы постеснялись написать открытым текстом четыре образца (строка 35), поэтому зашифровали их простой подстановкой.

Читателю предлагается расшифровать эти образцы и догадаться, чего испугались авторы.

Запостил: inkanus-gray, 22 Апреля 2016

Tweet
Комментарии (68) RSS
- inkanus-gray 22.04.2016 21:05 # 0
  
  Запрос раздела для очередного языка.
  Ответить
- gost 22.04.2016 21:13 # +7
  
  Подставлял в надежде получить что-нибудь интересное, а в результате получил хуй :(
  Ответить
  - inkanus-gray 22.04.2016 21:14 # +2
    
    Так часто бывает...
    Ответить
    - Elvenfighter 22.04.2016 23:05 # 0
      
      А зачем там 6 и точка?
      Ответить
      
      inkanus-gray 22.04.2016 23:29 # +5
      
      Это знать надо, если ты учился в шестом училище! Это классика!
      
      This section contains a brief explanation of Knuth's algorithm, in
      case you missed it from the TeX books. We'll use the semi-word
      "example" as our running example.
      
      Since the beginning and end of a word are special, the algorithm is
      actually run over the prepared word (prep_word in the source)
      ".example.". Knuths algorithm basically just does pattern matches from
      the rule set, then applies the matches. The patterns in this case that
      match are "xa", "xam", "mp", and "pl". These are actually stored as
      "x1a", "xam3", "4m1p", and "1p2l2". Whenever numbers appear between
      the letters, they are added in. If two (or more) patterns have numbers
      in the same place, the highest number wins. Here's the example:
      
      . e x a m p l e . x1a x a m3 4m1p 1p2l2 ----------------- . e x1a4m3p2l2e .
      
      Finally, hyphens are placed wherever odd numbers appear. They are,
      however, suppressed after the first letter and before the last letter
      of the word (TeX actually suppresses them before the next-to-last, as
      well). So, it's "ex-am-ple", which is correct.
      
      Точка означает начало либо конец слова (как в регулярках ^ или $). Чётные числа указывают на нежелательность переноса в этом месте, нечётные — на желательность. Если слову соответствуют несколько образцов и образцы накладываются, для каждой пары букв выигрывает наивысшее число среди образцов.
      
      Короче, 6 и точка означают, что перед слогами хуй$, хую$, хуе$, хуем$ перенос делать нежелательно, дабы не смущать воспитанниц Института благородных девиц. Перекрыть это правило можно, если добавить образец типа 7ху
      Ответить
      
      inkanus-gray 23.04.2016 12:39 # 0
      
      P.S. Нашёл свою опечатку: s/хуе/хуя/
      Ответить
      
      Desktop 05.09.2021 18:13 # 0
      
      пиздец. почему я думал, что этот алгоритм придумал Дейкстра?
      Ответить
      
      guest 22.04.2016 23:30 # −1
      
      точка не нужен
      Ответить
      
      inkanus-gray 22.04.2016 23:34 # +3
      
      Действительно, с точкой в шаблоне слово «страхуйся» может быть перенесено как «стра-хуйся» и глаза будут цепляться за «хуйся» в начале строки. А без точки в шаблоне даже в этом слове перенос будет запрещён.
      Ответить
      
      guest 23.04.2016 00:17 # −1
      
      шаблон не нужен
      Ответить
  - guest 23.04.2016 14:17 # +6
    
    Хуй не нужен
    Ответить
    - inkanus-gray 23.04.2016 16:13 # +6
      
      Смотря кому...
      Ответить
- guest 22.04.2016 22:02 # −1
  
  TeX не нужен
  Ответить
- kegdan 23.04.2016 00:07 # +6
  
  Отображение не биективно. увы, так что это не шифр. Видимо поЦиЭнт - долбоеб
  Ответить
  - inkanus-gray 23.04.2016 11:09 # +4
    
    Если отображение биективно, то это шифр.
    
    Если несколько кодов могут отображаться на один, то это сжимающее отображение, т. е. хэш.
    
    Если один код может отображаться на несколько, как здесь, то это... разжимающее отображение. Большое количество вореций зашифрованной информации не позволяет восстановить её с помощью частотного анализа, не зная ключа.
    
    Недостаток разжимающего отображения заключается в том, что алфавит зашифрованного текста должен быть мощнее алфавита источника.
    Ответить
- Steve_Brown 23.04.2016 11:58 # +3
  Будете смеяться, когда
  
  • tex.org/downloads/hyp-ru.tex.gzip Причина блокировки: использование нецензурной лексики Доступ: разрешить после обработки автоматическим фильтром
  Ответить
  - inkanus-gray 23.04.2016 12:30 # +3
    
    Самое смешное, что тот же алгоритм переноса слов (только на собственном движке) использует Опенофис и все программы, основанные на библиотеке libhnj (даже для Питона есть адаптер этой библиотеки). Поскольку у этих программ крутого теховского препроцессора нет, табличка образцов лежит в незашифрованном виде:
    
    6хв. 6хрь. 6хуем. 6хуй. 6хую. 6хуя. 6ценни 6ч1к
    
    Отсюда:
    C:\Program Files\LibreOffice 5\share\extensions\dict-ru\hyph_ru_RU.dic
    
    Если РКН запретит нецензурную лексику в файлах, то скачать Опенофис/Либрофис не получится...
    Ответить
    - Vasiliy 23.04.2016 12:34 # +1
      
      Пора запасаться софтом в прок.
      Ответить
      
      CEHT9I6PbCKuu_nemyx 05.09.2021 07:29 # 0
      
      Ну как, запасся?
      Ответить
      
      guest6 05.09.2021 16:33 # 0
      
      А ты?
      Ответить
      
      CEHT9I6PbCKuu_nemyx 05.09.2021 17:43 # 0
      
      Потихоньку запасаюсь.
      
      Не подскажешь список того, что «must have»?
      Ответить
      
      Desktop 05.09.2021 17:47 # +1
      
      Foobar (или 1by1), 7zip, Alcohol 120%, QIP, IrfanView, Firefox, Paint.NET
      Ответить
      
      guest6 05.09.2021 17:52 # +1
      
      Советую начать тут
      https://lh4.googleusercontent.com/-0RTe0qQVcec/T6lrwK9SGMI/AAAAAAAABe4/CJxl-Xp6wY0/s640/P1130754_2012-05-08T16-03-22.JPG
      
      https://www.phantom.sannata.org/viewtopic.php?t=6133&start=693
      Ответить
      
      Desktop 05.09.2021 18:08 # 0
      
      > https://www.phantom.sannata.org
      
      SQL ERROR [ mysqli ]
      
      MySQL server has gone away [2006]
      
      An sql error occurred while fetching this page. Please contact an administrator if this problem persists.
      Ответить
      
      bormand 05.09.2021 18:13 # 0
      
      > MySQL server has gone away [2006]
      
      Уже 15 лет как ушёл...
      Ответить
      
      guest6 05.09.2021 18:15 # 0
      
      Ну как, контактнул?
      Ответить
      
      CEHT9I6PbCKuu_nemyx 05.09.2021 18:18 # 0
      
      Too many connections [1040]
      
      Нифига себе сколько народу на «Говнокоде»! Сайт положили сразу после публикации ссылки.
      Ответить
      
      guest6 05.09.2021 18:43 # 0
      
      Именно поэтому я за «Говнокод».
      Ответить
    - 3_14dar 23.04.2016 15:03 # 0
      
      6хв.
      6хрь.
      
      Это же не слоги?
      Ответить
      
      bormand 23.04.2016 15:37 # +4
      
      Как я понял - это не слоги, а просто паттерны. Чётные цифры помечают места в паттерне, куда нельзя сувать перенос. Нечётные - куда можно. Если несколько паттернов совпало - большая цифра побеждает меньшую.
      
      Т.е. если у тебя есть и1х и 6хрь, то сти-хи будут переноситься, а вихрь - нет.
      
      Пусть инканус поправит, если я гоню.
      Ответить
      
      Steve_Brown 23.04.2016 16:51 # +1
      
      Тут, возможно, вопрос в том, нужны ли данные исключения. Если я правильно понимаю, переносы в общем случае расставляются алгоритмом, распознающем слоги по гласным и согласным, а это - исключения, т.е. сти-хи он перенесет без всяких правил. Но *ви-хрь алгоритм же и так не должен переносить, ведь "хрь" - не слог?
      Ответить
      
      guest 23.04.2016 16:52 # −1
      
      Исключения не нужны
      Ответить
      
      inkanus-gray 23.04.2016 17:14 # +2
      
      В том и дело, что эту таблицу используют программы, у которых нет алгоритма распознавания слогов по гласным и согласным. Так что паттерны — это не просто исключения.
      
      Алгоритм первоначально был рассчитан на английский и на всякие романо-германские языки, которым свойственны буквосочетания (вроде дифтонгов или обозначения звука [ш] несколькими буквами), так что без детального анализа нельзя разобрать слово на гласные-согласные.
      Ответить
      
      guest 23.04.2016 17:15 # +1
      
      Дифтонги не нужны
      Ответить
      
      3_14dar 24.04.2016 04:17 # 0
      
      Насколько надежно работает этот алгоритм? Делаю переносы именно по словарю опенофиса, неправильно, кажется, не переносил, а вот переносы расставлял не везде где надо.
      Ответить
      
      inkanus-gray 24.04.2016 12:01 # 0
      
      Тут от самого словаря многое зависит. С Опенофисом распространяется словарь Д. Вулиса, упомянутый в этом говнокоде (известны как минимум три модификации этого словаря, какая именно из них в Опенофисе, я точно не знаю). Он не самый большой, хотя и не самый маленький. В комплекте TeXLive можно найти более мощные словари.
      Ответить
      
      inkanus-gray 24.04.2016 12:02 # 0
      
      Например, этот:
      % ruhyphal.tex: Russian hyphenation patterns, version 2003/03/10 % Copyright 1999-2003 Alexander I. Lebedev <[email protected]> % % This program may be distributed and/or modified under the conditions % of the LaTeX Project Public License, either version 1.2 or any later % version. % % Patterns were generated with patgen from a 990,000-word list and then % manually corrected. %
      
      Или этот:
      %----------------------------------------------------------------------- %------------------- ruhyphas.tex v1.0b4a 23-Jul-98 -------------------- %------ (c) 1997,1998 by A.Slepuhin, Moscow State University ----------- %----------------------------------------------------------------------- % % This file contains an experimental version of Russian hyphenation % patterns built using basic Russian hyphenation rules and a dictionary % of approximately 1,300,000 different word forms. Note, that these % patterns use *strong* hyphenation rules and were in use by most % publishers until modern times. Modern tradition uses *weaker* rules % (i.e. offering more break points), which sometimes make text difficult % to read. Due to TeX's excellent paragraph formatting algorithm, even % these strong rules give good word spacing. These patterns have been % checked on some books edited by Holy Trinity St.Sergius Lavra % Publishers. As a result about 40 patterns were added and changed. I % would be pleased to receive any remarks and bug reports (first of all % lists of words hyphenated with errors). Please send your messages via % e-mail to: % % [email protected]
      Ответить
      
      inkanus-gray 24.04.2016 12:02 # 0
      
      Или этот:
      %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % % This is russian hyphenetion patterns hyphen.rus, version 2.01 beta % % This file is the part of a Russian Foundation of Basic Research % % PUBLIC DOMAIN TeX distribution % % % % (c) Russian Foundation of Basic Research, 1996. % % (c) Sergei V. Znamenskii ([email protected]) 1995--1996 % % %
      Ответить
      
      inkanus-gray 24.04.2016 12:02 # 0
      
      Алгоритм не учитывает специфику языков. Например, в старой орфографии немецкого языка можно было переносить сочетание «ck» как «k-k». Описать эту возможность словарём невозможно. Тут остаётся только вставлять хак уже после расстановки возможных переносов.
      Ответить
      
      wvxvw 24.04.2016 13:01 # +3
      
      Для таких изысков ЛаТеК уже тяжело использовать в любом случае. Обычно для верстки нужно редактировать разрядку по-строково. Есть еще и другие правила, касающиеся переносов, не только благозвучность. Например, в хорошей книге нельзя, чтобы было больше четырех переносов подряд (т.е. чтобы четыре строки подряд заканчивались переносами). Такое поиском-заменой по слогам не сделать.
      Ответить
      
      inkanus-gray 24.04.2016 13:21 # +1
      
      Строгие правила типографии также запрещают «тоннели». Это когда в четырёх строках подряд в какой-нибудь позиции пробелы аккурат друг над другом или по диагонали. «Тоннель» коварен тем, что у читателя может создаться ощущение новой колонки.
      
      Для устранения «тоннеля» приходится добавлять пробелы в случайных местах. ТеХ, кажется, с этой задачей справляется, а в текстах, свёрстанных в Ворде, нередко вижу «тоннели».
      
      Но это уже к алгоритму переносов имеет отдалённое отношение.
      Ответить
  - guest 23.04.2016 15:54 # −1
    
    Да он не нужег
    Ответить
  - bormand 10.02.2019 10:06 # 0
    
    > .gzip
    > нецензурной лексики
    Во времена однобайтных кодировок хуи в рандомных данных встречались довольно часто.
    Ответить
    - O4epegHou_nemyx 10.02.2019 11:42 # 0
      
      Именно поэтому я за "однобвйтные кодировки*.
      Ответить
      
      guest8 10.02.2019 13:50 # −999
      
      показать все, что скрытоvanished
      Ответить
    - Kakou-mo_nemyx 10.02.2019 14:37 # 0
      
      Слово «его» в кодировке «windows-1251» читается как «хую» в кодировке «cp866».
      Ответить
      
      guest8 10.02.2019 14:43 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      Kakou-mo_nemyx 10.02.2019 14:50 # 0
      
      Хуя рахману рагиму, хубо могу лязи. Ляиляга иль ляхуя.
      Ответить
- bormand 23.04.2016 12:02 # 0
  
  Ответить
  - inkanus-gray 23.04.2016 12:06 # +4
    
    Этот фрагмент запрещает перенос перед последним слогом в словах типа «застрахуй», «подстрахуй», «заштрихуй», «підрахуй», а также «штрихую», «штрихуем».
    
    P.S. Не могу придумать пример слова, заканчивающегося на «-хуе».
    Ответить
    - bormand 23.04.2016 12:16 # +2
      
      > перед последним слогом
      А "страхуемый" он может перенести как стра-
      хуемый?
      Ответить
      
      inkanus-gray 23.04.2016 12:20 # +2
      
      Да, я уже об этом чуть выше написал. Точка в образце матчится концу слова, поэтому образец "6хуе." на слово «страхуемый» не наложится. Не было бы точки, перенос был бы запрещён.
      Ответить
- inkanus-gray 23.04.2016 18:38 # +3
  
  Отвлекусь от данного кода. Вспомнил о двух задачах:
  
  1. Как получают эти паттерны? Вручную, основываясь на свою интуицию, выдирают из словаря или есть какие-нибудь автоматические алгоритмы получения паттернов?
  
  2. Табличка паттернов может быть использована для получения новых слов в бредогенераторе. Для этого нужно выбирать из неё достаточно длинные паттерны. В генерации связных текстов это никак не поможет, но может выдать что-нибудь типа «верблюдается» и «одновременьше».
  Ответить
  - bakagaijin 23.04.2016 23:21 # +4
    
    1. Есть мнение, что сидят какие-то люди на кафедре и за небольшую денежку клепают. Во всяком случае, с чем-то похожим уже сталкивался. Корпус текстов есть, натравливаем на него что-нибудь самописное, получаем сырые данные и вперёд... Я не уверен, само собой.
    Ответить
    - inkanus-gray 24.04.2016 13:25 # +1
      
      Я теперь заметил в одном из словарей: «Patterns were generated with patgen from a 990,000-word list and then manually corrected». Так что софт есть.
      Ответить
      
      bormand 24.04.2016 13:38 # 0
      
      Ну, судя по доке, ему на вход надо список всех слов с уже расставленными переносами...
      Ответить
      
      kegdan 24.04.2016 13:55 # 0
      
      изейшая программа
      Ответить
      
      inkanus-gray 24.04.2016 14:02 # 0
      
      Если изейшая, то напиши свою реализацию. А мы посмотрим.
      Ответить
      
      kegdan 24.04.2016 14:03 # 0
      
      если тебе на вход приходит список всех слов, разбитых по слогам, то все просто. Не влезает? - ищем в списке. Есть - разбиваем, нет - переносим целиком. И до утра
      Ответить
      
      inkanus-gray 24.04.2016 14:06 # 0
      
      Первое, что приходит в голову, это из слова «про-грам-ма» сделать паттерн «.про1грам1ма.». Потом ты вспоминаешь, что слово «программа» может склоняться и может образовывать производные слова. Паттернов становится слишком много, и надо придумать способ оптимизировать их, но так, чтобы не было ложных срабатываний.
      Ответить
      
      kegdan 24.04.2016 14:09 # 0
      
      >> Потом ты вспоминаешь, что слово «программа» может склоняться и может образовывать производные слова.
      
      скорее всего эти производные тоже заносятся
      
      тут думать надо
      Ответить
      
      inkanus-gray 24.04.2016 14:20 # 0
      
      В словаре Вулиса, например, нет слова «подосиновик», но есть паттерны «по2д1о2си», «о1до», «о1си», «1си», «и1но», «2ов», «о1ви».
      
      В словарях, которые я видел, общее число паттернов от 3 до 6 тысяч, хотя исходная база содержит около миллиона слов.
      Ответить
      
      kegdan 24.04.2016 14:28 # 0
      
      а что означат цифры?
      Ответить
      
      bormand 24.04.2016 14:31 # 0
      
      #323240
      Ответить
      
      kegdan 24.04.2016 14:32 # 0
      
      ясно. Думать надо, а мне чет лень
      Ответить
      
      cmepmop 10.02.2019 20:36 # 0
      
      Это колор, мой зелёный друк.
      Ответить
- O4epegHou_nemyx 10.02.2019 09:51 # 0
  
  Странные люди, если бы мне выпала возможность невозбранно написать где-нибуль "хуй", я бы это обязательно сделал.
  
  ХУЙ!
  Ответить
  - Kakou-mo_nemyx 10.02.2019 15:15 # 0
    
    ААААА!
    
    https://en.wiktionary.org/wiki/huy
    
    А ещё в табасаранском языке слово «хуй» означает собаку, в монгольском языке слово «хуй» означает рулон или ножны. А «хуйхуй» —– это самоназвание народа дунгане:
    https://en.wikipedia.org/wiki/Hui_people
    
    Сейчас в литературе и в СМИ вместо «хуйхуй» стыдливо употребляют «облагороженное» слово «хуэй».
    Ответить
Добавить комментарий
Ошибка компиляции комментария:

Гости могут высказаться только в понедельник, среду, четверг или воскресение
Где здесь C++, guest?!

А не использовать ли нам bbcode?

[b]жирный[/b] — жирный

[i]курсив[/i] — курсив

[u]подчеркнутый[/u] — подчеркнутый

[s]перечеркнутый[/s] — перечеркнутый

[blink]мигающий[/blink] — мигающий

[color=red]цвет[/color] — цвет (подробнее)

[size=20]размер[/size] — размер (подробнее)

[code=<language>]some code[/code] (подробнее)

Проверочный код: *

Говнокод: по колено в коде.

Куча / Говнокод #19864

Комментарии (68) RSS

Добавить комментарий