Говнокод #17886 — Python — Говнокод.ру

kyzi007 30.03.2015 12:24 # 0

Ы, забыла ошибку именования вывода поправить,

Ответить

Vindicar 30.03.2015 12:31 # 0

Перегруженные __equals__() и __getitem__() для быстрой фильтрации?

Ответить

guest 30.03.2015 12:55 # 0

>df[df['reason']=='in-in error sequence']
Что за формат такой?

Ответить

orion 30.03.2015 17:52 # 0

побуду кэпом - в df по ключам True/False лежат дикты, имеющие по ключу spider объекты с методом value_counts,...
Ответить
Vindicar 30.03.2015 18:52 # 0

Или сравнение с объектом по строковым ключам df порождает функцию/объект, который при передаче в качестве ключа производит поиск.фильтрацию данных.
Похожий подход используется в numpy, там можно написать что-то вроде
a[a < 0] = 0
чтобы обнулить все отрицательные элементы.
Ответить
- guest 30.03.2015 19:03 # 0
  
  И как numpy видит это a<0? Оно готовый бул получает.
  Ответить
  - roman-kashitsyn 30.03.2015 19:09 # 0
    
    перегруженные операторы сравнения и индексирования
    Ответить
    - guest 30.03.2015 19:52 # 0
      
      Нихуя не понял.
      
      a.__lt__(0) возвращает объект, хранящий условие, которой потом передается как индекс?
      Ответить
      - roman-kashitsyn 30.03.2015 20:41 # 0
        
        Да. Первый раз видишь чтоли? Кругом и рядом такое используется для построения DSL. В крестах это называется Expression Pattern.
        Ответить
        
        guest 30.03.2015 21:50 # 0
        
        В питоне за пределом numpy, который большинству нахуй не упал, это не используется. Алсо, на питоне есть парсер, на котором таки можно писать нормальные DSL. И 0>a написать нельзя будет.
        Ответить
        
        wvxvw 30.03.2015 22:21 # 0
        
        А что предлагаешь вместо Нумпая? Юлию? Р? Матлаб? У меня данных нет, но подозреваю, что Нумпай таки самый популярный пакет для работы со статистикой.
        Ответить
        
        guest 30.03.2015 23:25 # −4
        
        > статистика большинству нахуй не упала
        Ответить
        
        wvxvw 30.03.2015 23:44 # 0
        
        А чем определяется нужность? И кто такие большинство? И как востребованость большинством отражается на востребованости вообще?
        Ответить
        
        guest 31.03.2015 11:03 # 0
        
        Большинство - это большинство юзеров. И как востребованость большинством отражается на неактуальности проблемы для питона в целом.
        Ответить
        
        wvxvw 31.03.2015 15:17 # +1
        
        А где-то есть статистика по тому кто и для чего использует Питон?
        Почему мнение нубов должно кого-то волновать?
        Почему, например, вклад в развитие языка и инфраструктуры не является параметром для вычисления востребованости?
        Ответить
        
        guest 31.03.2015 17:43 # −1
        
        Статистики у меня под рукой нет, но, думаю, мы тут наблюдаем один из феноменов интернета, когда крикливое меньшинство (ультранационалисты, прыщеблядки и прочий скам) кажется гораздо больше, чем оно есть на самом деле. Вот облюбовали вузовцы педивикию - и кажется, что на питоне только графики статистики и рисуют.
        
        >Почему мнение нубов должно кого-то волновать?
        Пардон, но хелловердщики / быдлокодеры на numpy и есть нубы по сравенению с веб-девелами, которые используют гораздо большую часть языка, а не пишут си на питоне. Или есть пруфы на противное?
        Ответить
        
        Abbath 31.03.2015 02:17 # 0
        
        J
        Ответить
        
        kegdan 31.03.2015 11:07 # 0
        
        Хороший выбор, только нужно вникнуть. Я вникаю - мне нравится
        Ответить
        
        roman-kashitsyn 31.03.2015 10:36 # 0
        
        Можно таким же макаром, например, SQL-фильтры писать, составляя из них выражения и рендеря потом в текст запроса. У нас такой подход используется в одной из абстракций хранилища.
        
        Ну и мне интересно, насколько часто люди пишут 0 < X вместо X > 0.
        Это, безусловно, недостаток. В основном убогой ООП-говноконцепции "только объекты, только вызовы методов" и питушиной динамизации.
        
        В крестах, например, можно без проблем написать перегрузку оператора для полной симметрии.
        MyExpression operator<(int value, MyField field);
        MyExpression operator>(MyField field, int value);
        Ответить
        
        bormand 31.03.2015 10:45 # 0
        
        А в питоне симметричный оператор используется только если у левой части нет своей перегрузки?
        Ответить
        
        guest 31.03.2015 11:02 # 0
        
        В питоне a+b вызывает a.__add__(b), если его нет - b.__radd__(a)
        Ответить
        
        roman-kashitsyn 31.03.2015 11:46 # 0
        
        > своей перегрузки
        думаю, перегрузка - не совсем правильное слово в контексте пистона.
        Ответить
        
        guest 31.03.2015 12:08 # 0
        
        ...в контексте ООП
        Ответить
        
        roman-kashitsyn 31.03.2015 12:13 # 0
        
        Поясните мысль.
        
        как перегрузка связана с ООП?
        Ответить
        
        guest 31.03.2015 12:18 # 0
        
        В питоне перегрузка оператора = перегрузка метода. Очевидно же.
        Ответить
        
        roman-kashitsyn 31.03.2015 12:20 # +1
        
        В пистоне вообще нет ПЕРЕГРУЗКИ, есть только ПЕРЕОПРЕДЕЛЕНИЕ. См. overloading vs overriding.
        Ответить
        
        guest 31.03.2015 13:15 # −1
        
        Какая нахуй разница?
        Ответить
        
        roman-kashitsyn 31.03.2015 13:56 # 0
        
        Ты кроме динамики ничего не видел, тебе долго объяснять.
        Ответить
        
        guest 31.03.2015 14:01 # −1
        
        Видел статику. Долго - не объясняй, все равно нормально объяснить не сможешь.
        Ответить
        
        Xom94ok 30.03.2015 22:34 # 0
        
        > В крестах это называется Expression Pattern.
        Это такая штука, из-за которой появилось boost::lambda? Ну и забористое же курево было у разрабов, тоже хочу.
        
        > Кругом и рядом такое используется для построения DSL.
        Ото всей души надеюсь, что никогда такого не встречу :)
        Ответить
        
        roman-kashitsyn 31.03.2015 10:38 # 0
        
        Апофеоз всего этого добра - boost.proto, поверх которого уже реализована lambda и прочий expressive. А начиналось всё, насколько я знаю, с вычислительной алгебры в Blitz++.
        Ответить
  - Vindicar 30.03.2015 23:14 # 0
    
    a<0 превращается в булев массив размерности как a, где истинны только элементы, соответствующие элементам a<0.
    Любой массив можно проиндексировать булевым массивом такой же размерности, получив view (одномерный массив) элементов для которых индекс истинен. Если над этим view производить операции, будет затронут исходный массив.
    Ответить
    - guest 30.03.2015 23:27 # 0
      
      http://govnokod.ru/17886#comment269430
      
      Массив - это list или хрень из numpy? В питоне можно как-то так:
      lst[1,3..5,9]
      Ответить
      - Vindicar 31.03.2015 15:34 # 0
        
        Массив нумпишный. Про сравнения отписал ниже.
        Ответить
- guest 30.03.2015 19:55 # 0
  
  Тогда у тебя сравнение будет несимметричным.
  Ответить
  - Vindicar 31.03.2015 15:33 # 0
    
    >>> import numpy
    >>> a = numpy.array([1,2,3,4])
    >>> a<3
    array([ True, True, False, False], dtype=bool)
    >>> 3>a
    array([ True, True, False, False], dtype=bool)
    Ответить
    - guest 31.03.2015 17:44 # 0
      
      Каг? http://govnokod.ru/17886#comment269618
      Ответить
      - Vindicar 31.03.2015 22:21 # 0
        
        Смотри, какая тут фишка... для арифметических операций предусмотрены обратные версии методов, потому что если сложение/умножение еще симметричны (хотя по идее не всегда), то вот вычитание/деление - нет.
        А вот сравнение считается симметричным, так что если 3.__gt__(a) возвращает NotImplemented, то интерпретатор пробует зайти с другого фланга и вызывает a.__lt__(3), что уже срабатывает нормально.
        
        Во всяком случае, я так понял доки.
        Ответить
        
        guest 31.03.2015 22:33 # 0
        
        А где у int вообще методы сравнения?
        Ответить
        
        Vindicar 31.03.2015 22:38 # 0
        
        В смысле "где"? int это субкласс object. В Питоне всё объект. =)
        Ответить
        
        guest 31.03.2015 22:39 # 0
        
        В смысле dir(3)
        Ответить
        
        Vindicar 31.03.2015 22:48 # 0
        
        >>> int.__gt__
        <method-wrapper '__gt__' of type object at 0x1E1DB538>
        
        Тут я и сам не очень понял, но вблизи корня дерева объектов всегда творится какая-то чертовщина. В какой-то момент им же надо перейти к нативному коду.
        Ответить
        
        guest 01.04.2015 15:43 # 0
        
        int().__gt__
        AttributeError: 'int' object has no attribute '__gt__'
        
        Да, различия между сишным апи и питоновским заябывают.
        Ответить
        
        guest 31.03.2015 22:48 # 0
        
        Кстати, во втором питоне - нет.
        Ответить
        
        Vindicar 31.03.2015 23:01 # 0
        
        Python 2.7.2 (default, Jun 12 2011, 15:08:59) [MSC v.1500 32 bit (Intel)] on win32
        Type "help", "copyright", "credits" or "license" for more information.
        >>> issubclass(int, object)
        True
        >>> isinstance(3, object)
        True
        Ответить
        
        guest 31.03.2015 23:03 # 0
        
        >В Питоне всё объект.
        
        In [29]: class A: pass
        
        In [30]: isinstance(A(), object)
        Out[30]: True
        
        Стоп, а нахуя тогда явно наследоваться от объекта?
        Ответить
        
        Vindicar 31.03.2015 23:05 # 0
        
        Во втором питоне есть какая-то хуйня с old style и new style классами. Вторые явно наследуются, первые неявно. Другой разницы навскидку не скажу. Обратная совместимость что ли. В третьем old style уже нету.
        Ответить
        
        guest 31.03.2015 23:14 # 0
        
        Во втором new style только через явное наследование, ты не путаешь? Иначе нахера нас учили это писать?
        Ответить
        
        Vindicar 31.03.2015 23:17 # 0
        
        Могу только привести копипасту:
        
        Up to Python 2.1, old-style classes were the only flavour available to the user. The concept of (old-style) class is unrelated to the concept of type: if x is an instance of an old-style class, then x.__class__ designates the class of x, but type(x) is always <type 'instance'>. This reflects the fact that all old-style instances, independently of their class, are implemented with a single built-in type, called instance.
        
        New-style classes were introduced in Python 2.2 to unify classes and types. A new-style class is neither more nor less than a user-defined type. If x is an instance of a new-style class, then type(x) is typically the same as x.__class__ (although this is not guaranteed - a new-style class instance is permitted to override the value returned for x.__class__).
        
        Ряд фишек типа property доступен только новым классам.
        Ответить
        
        guest 31.03.2015 23:19 # 0
        
        Нахуй эти изъебства нужны? Единственное что я успел заметить - __slots__ работают только если класс наследует объект
        Ответить
        
        Vindicar 31.03.2015 23:23 # 0
        
        Да как обычно, сначала сделали как получилось, потом переделали, а потом пришла она - обратная совместимость(tm)
        Ответить
        
        guest 31.03.2015 23:31 # 0
        
        Так зачем переделали? Зачем нужно наследовать object?
        Ответить

Vasiliy 30.03.2015 22:38 # +1

Нас этим не испугать.
У меня в проекте вот такое есть
if (isset($suppliers_makes_data[$list_office_logo[$j]][$list_supplier_logo[$j]][$list_direction[$j]][$make_logo]['max_price']) && $suppliers_makes_data[$list_office_logo[$j]][$list_supplier_logo[$j]][$list_direction[$j]][$make_logo]['max_price']>0)
и ничего жив здоров. Переписываю потихоньку

Ответить

guest 31.03.2015 04:19 # 0

Похоже на pandas. Крутая либа.
df - от DataFrame.
А фишка с индексацией называется "fancy indexing"

Ответить

kyzi007 31.03.2015 17:37 # 0
Да, это пандас и да это статистика. Я начала накидывать в коммандлайне отчет потом плюнули и все таки написана нормально. Когда показала в чатике народ начал меня упрекать в говнокоде.
Собственно я недоосилила мерж датафреймов и сделала наполовину руками.
```
class StatsReport(State):
    def run(self):
        path = self.context.storage.abs_path('')
        df = pandas.read_csv(path + 'report_error.csv')
        errors = set(df['reason'].values)

        tmp = map(lambda x: {'spider': x[0], 'all': x[1]}, df['spider'].value_counts().to_dict().items())
        report = {}
        for r in tmp:
            report[r['spider']] = r

        for error in errors:
            if len(str(error)) == 1:
                continue
            tmp = map(lambda x: {'spider': x[0], 'val': x[1]}, df[df['reason'] == error]['spider'].value_counts().to_dict().items())
            for r in tmp:
                report[r['spider']][error] = r['val']

        for r in report.itervalues():
            for error in errors:
                if error not in r:
                    r[error] = 0
            for key in r.keys():
                if key != 'spider':
                    r[key] = int(r[key])

        json.dump(map(lambda x: x, report.itervalues()), open(path + 'error_stats_report.json', 'w+'))
```
Ответить
- guest 31.03.2015 17:47 # 0
  
  Говно в формате, где в нулевом элементе лежит что-то одно, в первом - что-то другое (но как я понял это либа?). Для вас, Козлов, NamedTuple построили.
  Ответить
  - kyzi007 31.03.2015 18:21 # 0
    
    Тут все равно будет одно и то же значение после вызова value_counts и его типизировать может только задрот от ооп.
    И да, пандас далеко не везде удобность потому что оно должно работать быстро.
    Ответить
    - guest 31.03.2015 18:24 # 0
      
      Где тут? У тебя items() возвращает кортежи/списки с 2 элементами, назначение которых можно понять только заглянув куда-то в доки.
      Ответить
      - kyzi007 31.03.2015 19:43 # 0
        
        Ну многое можно узнать только заглянув в доки, я не собираюсь кого то либе учить. Тем более что делает код можно смотреть риалтайм. Есть print obj.__doc__ и print dir(obj)
        Ответить
        
        guest 31.03.2015 19:47 # 0
        
        Но сказать что делает df[df['reason']=='in-in error sequence'] не заглянув в доки нельзя. Были бы строковые ключи / поля - было бы понятно
        Ответить
      - kyzi007 31.03.2015 19:48 # 0
        
        Не понимая как работат пандас в код с работой с ним лучше не лезть, много специфики.
        Ответить
        
        guest 31.03.2015 19:57 # 0
        
        Самое хреновое, что так ведет себя и стандартная либа питона, poplib кажется, там возвращается кортеж (код, ответ)
        Ответить
- guest 31.03.2015 18:25 # 0
  
  map(lambda x: x
  
  Э-э. Это заглушка?
  Ответить
  - kyzi007 31.03.2015 19:42 # 0
    
    Это особая питонячья магия) Просто json итераторы не ест.
    Ответить
    - guest 31.03.2015 19:48 # +1
      
      map(lambda x: x, report.itervalues())
      
      Бля, ну это же на отдельный гк тянет :) или report.values(), или list()
      Давно на питоне?
      Ответить
      - kyzi007 31.03.2015 19:51 # 0
        
        Год )
        Ответить
      - kyzi007 31.03.2015 19:59 # 0
        
        Честно говоря вот только что занялась тем что учу что то, до этого просто выезжала на гугле и смекалке и было лень.
        Ответить
    - guest 31.03.2015 22:48 # 0
      
      Кстати, почему?
      Ответить
      - kyzi007 01.04.2015 08:26 # 0
        
        Яхз, не разбиралась, работает и ладно, тем более что с той либы надо сваливать на что то более адкватное. А за report.values() стыдно.
        Ответить
        
        guest 01.04.2015 13:46 # 0
        
        list(sequense) важнее имхо
        Ответить
        
        kyzi007 01.04.2015 14:04 # 0
        
        Флешерское прошлое до сих пор дает о себе знать фразами "Оо а что можно было"?
        Ответить
- wvxvw 01.04.2015 15:09 # +1
  
  А какой смысл использовать open() и не закрывать? (Вместо with).
  Я так предполагаю, что все эти map(lambda ...) можно было короче и компактнее переписать циклами.
  Т.е. map(lambda x: x[0], x[1], something.to_dict().items()) явно же лучше было записать:
  [for key, value in something.to_dict().items()], а может и to_dict() не нужно было...
  Ответить
  - guest 01.04.2015 15:15 # 0
    
    >А какой смысл использовать open() и не закрывать? (Вместо with).
    В одну строчку тип. Если серьезно, что плохого в таком коде? Говорят, что удаление ссылок не гарантирует удаление объекта гц, но обычно почему-то он удаляется, это явно не мегапроект, где это было бы важно.
    
    >переписать циклами
    Списковыми выражениями?
    Ответить
- guest 01.04.2015 15:38 # 0
  
  Короче, тут хорошо очень многое.
  Ответить

guest 01.04.2015 15:13 # 0

if len(str(error)) == 1:
continue

Тот самый код?

Ответить

guest 01.04.2015 15:34 # 0

Ну вы поняли какой
Ответить
kyzi007 01.04.2015 16:00 # 0

Там в нескольких случаях попала ерунда в ошибку )
Ответить
- guest 01.04.2015 16:15 # 0
  
  Что за ерунда? Т.е. это костыль какой-то?
  Ответить
  - kyzi007 01.04.2015 16:34 # 0
    
    Да, мне было не особо интересно, там мало бажных данных получилось. Как нить найду поправлю.
    Ответить
    - guest 01.04.2015 16:36 # 0
      
      Ну если работающий костыль так хуй с ним, просто интересно что там за ошибки такие приходили
      Ответить
      - kyzi007 01.04.2015 17:43 # 0
        
        То что я анализировала это 60мб ная выжимка с ошибками из всех данных, где то я в процессе ее создания налажала, но там буквально несколько строк битые.
        Ответить
      - kyzi007 01.04.2015 17:49 # 0
        
        Просто взять и поанализировать сырую статистику не представлялось возможным, я там пошардила данные, покусочно обрабатывала и скидала ошибки, возможно оно как раз между кусками выросло (там вообще интересно было потому что по гб данным были раскиданы айдишники, миллион где то, по которым надо было проследить корректность порядка сбора данных). То есть дохрена млн записей по времени раскиданных. Наверно самая моя интрересная задача, а решилась после подумать и раздупления пандаса в два щелчка.
        Ответить

guest 01.04.2015 15:36 # 0

for key in r.keys():
                if key != 'spider':

Вот тут мне аж похорошело :) Обход циклом словаря

Ответить

kyzi007 01.04.2015 16:01 # 0

Что не так?
Ответить
roman-kashitsyn 01.04.2015 16:02 # 0

Как бы ты исправил этот код?
Ответить
- guest 01.04.2015 16:11 # 0
  if 'spider' in r:
  
  r же у нас dict?
  Ответить
  - roman-kashitsyn 01.04.2015 16:12 # 0
    
    Эм... Вообще не то.
    Ответить
    - guest 01.04.2015 16:13 # 0
      
      Тьху. Монитор галимый, без ide вижу плохо.
      Ответить
      - roman-kashitsyn 01.04.2015 16:15 # 0
        
        > Эм... Пояснишь?
        Не думал, что нужно тебе это объяснять, но этот код
        for key in r.keys(): if key != 'spider': r[key] = int(r[key])
        Преобразует в int значения для всех ключей, кроме ключа 'spider'. Как твой код решает эту же задачу, я не понял.
        Ответить
        
        guest 01.04.2015 16:24 # 0
        
        Перепутал == с !=
        Ответить
        
        kegdan 01.04.2015 16:33 # +1
        
        экий, батенька, вы путин
        Ответить
        
        guest 01.04.2015 16:34 # +1
        
        Сам хуйло
        Ответить
      - kegdan 01.04.2015 16:17 # 0
        
        В первом случае некоторый код выполняется для всех элементов словаря, где ключ не spider
        А во втором - проверяется есть ли такой ключ.
        Мне кажется или это немного не то?
        Ответить
- wvxvw 01.04.2015 17:21 # 0
  
  Можно было dict.pop_key('spider', None) без проверок все сделать, что там надо в цикле, и потом вернуть ключ обратно.
  Ответить
  - guest 01.04.2015 17:54 # 0
    
    Можно и так, а можно и влоб.
    Ответить

wvxvw 01.04.2015 18:12 # 0

tmp = [{ 'spider': 1 }, { 'spider': 2 }, { 'spider': 3 }, { 'spider': 4 }, { 'spider': 5 }]
report = {}
for r in tmp:
    report[r['spider']] = r

report = dict((x['spider'], x) for x in tmp)
report = { x['spider']: x for x in tmp }

Ну и еще вот это можно было короче записать.

Ответить

kyzi007 01.04.2015 18:39 # 0

Не, не.
Я расскажу что происходит
Берется баальшой пак данных состоящий из записей типа id | spider | error type | url | time, смотрятся какие есть ошибки, смотрятся какие есть спайдеры.
Берется каждая ошибка, по ней смотрится количество ошибок для каждого спайдера. Потом это количество приводится к тому инту которое жрет json + спайдеры по которым в данной категории нету ошибок ставится ключ и значение 0.
То есть получается таблица типа
спайдер | количество ошибок а | количество ошибок б
От этого и все пляски.
Я позже буду строить другие фасеты по конкретным потокам данных которые светятся чаще всего и по времени когда это происходит)
Ответить
- wvxvw 01.04.2015 19:35 # 0
  
  Так все три варианта выше делают одно и то же, просто последнее - короче.
  Ответить

Говнокод: по колено в коде.

Python / Говнокод #17886

Комментарии (98) RSS

Добавить комментарий