Говнокод #6241 — Си — Говнокод.ру

Говнокод: по колено в коде.

Нашли или выдавили из себя код, который нельзя назвать нормальным, на который без улыбки не взглянешь? Не торопитесь его удалять или рефакторить, — запостите его на говнокод.ру, посмеёмся вместе!

Си / Говнокод #6241

+134

int _Mbtowcx(wchar_t *pwc, const char *s, size_t nin, mbstate_t *pst, _Statab *pmbstate)
	char state = (char)pst->_State;
	unsigned char *su = (unsigned char *)s;
	wchar_t wc = (wchar_t)pst->_Wchar;
	static const mbstate_t initial = {0};

	if (pmbstate->_Tab[0] == 0)	{	/* no table, convert from UTF8 */
		if (s == 0)
			{	/* set initial state */
			*pst = initial;
			return (0);
			}

		for (; ; ++su, --nin) {	/* consume an input byte */
			if (nin == 0) {	/* report incomplete conversion */
				pst->_Wchar = wc;
				pst->_State = state;
				return (-2);
				}
			else if (0 < state)	{	/* fold in a successor byte */
				if ((*su & 0xc0) != 0x80) {	/* report invalid sequence */
					errno = EILSEQ;
					return (-1);
					}
				wc = (wchar_t)((wc << 6) | (*su & 0x3f));
				--state;
				}
			else if ((*su & 0x80) == 0)
				wc = *su;	/* consume a single byte */
			else if ((*su & 0xe0) == 0xc0)	{	/* consume first of two bytes */
				wc = (wchar_t)(*su & 0x1f);
				state = 1;
				}
			else if ((*su & 0xf0) == 0xe0)	{	/* consume first of three bytes */
				wc = (wchar_t)(*su & 0x0f);
				state = 2;
				}

			else{	/* report invalid sequence */
				errno = EILSEQ;
				return (-1);
				}
			if (state == 0)	{	/* produce an output wchar */
				if (pwc != 0)
					*pwc = wc;
				pst->_State = 0;
				return (wc == 0 ? 0 : (const char *)++su - s);
				}
			}

		}
	else
		{	/* run finite state machine */
		int limit = 0;

		if (s == 0)	{	/* set initial state */
			*pst = initial;
			return (pmbstate->_Tab[0][0] & _ST_STATE);
			}

		for (; ; )	{	/* perform a state transformation */
			unsigned short code;
			const unsigned short *stab;

			if (nin == 0)
				{	/* report incomplete conversion */
				pst->_Wchar = wc;
				pst->_State = state;
				return (-2);
				}
			else if (_NSTATE <= state
				|| (stab = pmbstate->_Tab[state]) == 0
				|| (_NSTATE*UCHAR_MAX) <= ++limit
				|| (code = stab[*su]) == 0)
				{	/* report invalid sequence */
				errno = EILSEQ;
				return (-1);
				}
			state = (char)((code & _ST_STATE) >> _ST_STOFF);
			if (code & _ST_FOLD)
				wc = (wchar_t)(wc & ~UCHAR_MAX | code & _ST_CH);
			if (code & _ST_ROTATE)
				wc = (wchar_t)(wc << CHAR_BIT | UCHAR_MAX
					& wc >> CHAR_BIT * (sizeof (wchar_t) - 1));
			if (code & _ST_INPUT && *su != '\0')
				++su, --nin, limit = 0;
			if (code & _ST_OUTPUT)
				{	/* produce an output wchar */
				int nused = (const char *)su - s;

				if (pwc)
					*pwc = wc;
				pst->_Wchar = wc;
				pst->_State = state;
				return (wc == 0 ? 0 : nused == 0 ? -3 : nused);
				}
			}
		}
	}

Долго не мог понять почему не работает
setlocale(...);
_setmbcp(...);
mbtowc(...);

на C++ Builder. Пока не заглянул в исходники.

Запостил:

sanchousf, 05 Апреля 2011

Комментарии (17) RSS

Lure Of Chaos 06.04.2011 22:28 # 0

я ничего не понял.
Ответить
- absolut 06.04.2011 22:39 # 0
  
  я чо комментишь тады ?
  Ответить
  - Lure Of Chaos 06.04.2011 22:41 # 0
    
    шобы я понял.
    Ответить
- sanchousf 06.04.2011 23:41 # 0
  Эта функция использует, неведомый мне, алгоритм для преобразования символов из ANSII таблицы в wchar_t, а не с Multi byte в wchar_t. Она ведет себя не так как написано в документации.
  Аналогичная функция с MS Visual Studio делает примерно так
  
  MultiByteToWideChar( _loc_update.GetLocaleT()->locinfo->lc_codepage, MB_PRECOMPOSED | MB_ERR_INVALID_CHARS, s, _loc_update.GetLocaleT()->locinfo->mb_cur_max, pwc, (pwc) ? 1 : 0 )
  Ответить
  - bugmenot 06.04.2011 23:53 # +1
    
    > с MS Visual Studio
    Ответить
    - absolut 07.04.2011 07:44 # 0
      
      i'm sending с MS, ass, ass
      Ответить
    - Lure Of Chaos 07.04.2011 12:09 # 0
      
      C MS
      Ответить
gegMOPO4 07.04.2011 20:33 # 0

Ну и что? В какой конкретно строчке ошибка?
Ответить
- absolut 07.04.2011 21:32 # 0
  
  Где-то между первой и второй.
  Ответить
- sanchousf 07.04.2011 22:09 # −1
  
  Во первых: это же STD. А значит и работать функция должна в соответствии с документацией по C++.
  
  Во вторых: Реализация. Вот список кодовых таблиц поддерживаемых Виндой
  http://msdn.microsoft.com/en-us/library/dd317756(v=VS.85).aspx
  А в данная функция, вроде бы, поддерживает UTF8 и OEM.
  Зачем придумывать такой алгоритм если надежней воспользоваться функцией MultiByteToWideChar?
  Ответить
  - gegMOPO4 07.04.2011 22:52 # 0
    
    Такой функции нет в стандарте, это какие-то внутренние детали реализации (и имя на подчёркивание намекает), пользователям о этой функции знать незачем.
    
    Эта функция как раз и реализует перекодировку из многобайтной кодировки в wchar. Для этого используется конечный автомат, управляемый таблицами (а кроме 8-битных кодировок существуют и многобайтные азиатские кодировки). В частном случае UTF-8 автомат закодирован явно (таблицы были бы слишком большими). Загляните в код iconv (или MultiByteToWideChar) — там увидите ещё сложнее.
    
    Почему не используется MultiByteToWideChar? Ну, возможно, когда писался этот код, её ещё не было. Или она поддерживала очень ограниченный набор кодировок. Или медленнее. Или часть рантайма MS VС, а не системная.
    Ответить
    - sanchousf 07.04.2011 23:49 # 0
      
      int (mbtowc)(wchar_t *_Restrict pwc, const char *_Restrict s, size_t n) { /* determine next multibyte code */ int i = _Mbtowc(pwc, s, n <= MB_CUR_MAX ? n : MB_CUR_MAX, _TLS_DATA_PTR(mbst)); return (i < 0 ? -1 : i); } int _Mbtowc(wchar_t *pwc, const char *s, size_t nin, mbstate_t *pst) { /* translate multibyte to widechar using global locale */ return (_Mbtowcx(pwc, s, nin, pst, _TLS_DATA_PTR(_Mbstate))); }
      Ответить
      - gegMOPO4 08.04.2011 10:34 # 0
        
        Нормальный код.
        Ответить
        
        sanchousf 08.04.2011 13:01 # 0
        
        Я хотел показать что mbtowc вызывает _Mbtowcx, а mbtowc это STD.
        P. S. Код mbtowc и _Mbtowc приведен полностью
        Ответить
        
        gegMOPO4 08.04.2011 13:51 # 0
        
        Ну так я и не сумневался.
        
        Для работы этой перекодировщику нужны ещё таблицы, на которые ссылается pmbstate (они могут занимать сотни килобайт и даже мегабайты). Полюбопытствуйте, разберитесь, как оно работает.
        Ответить
    - sanchousf 07.04.2011 23:53 # −1
      
      Код взят из Embarcadero RAD Studio 2010
      Ответить
lexa 24.08.2021 01:03 # 0

- Давай-ка задом, мила, - я шлёпнул Елену по ляжке, и она неловко перевернулась, встала на колени, высоко подняла зад.
Ответить

Говнокод: по колено в коде.

Си / Говнокод #6241

Комментарии (17) RSS

Добавить комментарий