Говнокод #13570 — Python — Говнокод.ру

Python / Говнокод #13570

−92
1. 1
2. 2
3. 3
4. 4
```
# ....цикл....
massiv['Текст статьи'].append(BeautifulSoup(urllib.request.urlopen(link).read()).select('.news-detail'))
# ....цикл....
return massiv
```
Взято отсюда https://plus.google.com/u/0/109791202896921426720/posts/JagdUYx2d67

Запостил: lig, 08 Августа 2013

Tweet
Комментарии (22) RSS
- Vindicar 08.08.2013 17:28 # +1
  
  Паттерн "связка сосисок".
  Ответить
- anonimb84a2f6fd141 08.08.2013 18:01 # 0
  
  Нафига питоновский суп, когда есть нативный lxml? Когда я в последний раз его трогал (это было давно), он вообще не работал.
  Ответить
  - Vindicar 09.08.2013 18:48 # +1
    
    Суп вроде как нормально ест некорректный HTML. Не уверен насчет lxml.
    Ответить
    - anonimb84a2f6fd141 09.08.2013 19:08 # 0
      
      Он у меня даже корректный не ел. С lxml все в порядке. В любом случае, скорость работы там должна быть на порядок хуже сишного lxml.
      Ответить
      
      Vindicar 10.08.2013 13:28 # 0
      
      Ну насчёт скорости охотно поверю. А вот насчет того что он html не ел... может, всё же неправильно готовили? Во всяком случае, мне недавно довелось с ним работать, вроде всё окей.
      Ответить
      
      anonimb84a2f6fd141 10.08.2013 19:00 # 0
      
      >недавно
      Может, в этом проблема? Я его пробовал году так в 2010.
      
      Методом тыка было определено, что он не переваривал одинарные кавычки.
      Ответить
- Stallman 08.08.2013 21:09 # +2
  
  >новичек
  А вот за такое надо сразу убивать.
  Ответить
- Vindicar 10.08.2013 13:34 # 0
  
  Кстати, менее заметное говно:
  1. супу можно задать фильтр для элементов, которые вообще стоит записывать в дерево. Фильтр, конечно, более убогий чем механизмы выборки из готового дерева, но всё равно помогает. Мне пригодилось, когда нужно было выдрать одинокий script без src из страницы.
  2. Во умолчанию текстовые элементы, возвращаемые супом - не строки, а узлы, которые помнят свои родительские элементы. Так что после выполнения этой строчки всё разобранное дерево документа останется в памяти.
  Ответить
  - anonimb84a2f6fd141 10.08.2013 19:02 # 0
    
    1. xpath же. Суп в него не может?
    2. Там не слабые ссылки? Пичально. Не знаю, как в lxml.
    Ответить
    - Vindicar 11.08.2013 13:48 # 0
      
      1. Для XPath нужно существующее дерево документа, не? А механизм о котором я говорю вроде как работает еще до построения полноценного DOM-дерева.
      2. Нет, не слабые. И по-моему это так и задумано, иначе нельзя будет гарантированно ходить по DOM-дереву, имея ссылку на узел из него. Если очень надо, есть метод для выдирания узла с потомками из контекста дерева, хотя в данном случае можно и проще.
      Ответить
      
      anonimb84a2f6fd141 11.08.2013 15:42 # 0
      
      1. Разница, не считая памяти, будет, имхо, минимальная.
      2. Может привести к пичальке, когда ты открываешь кучу документов и сохраняешь из каждого кусочек дерева в надежне, что остальное будет убито - авотхер. lxml тоже имеет метод getroottree()
      
      В инете рекомендуют deepcopy(), но если оно сохранит ссылки на ненужные элементы дерева, я не вижу, чем это должно помочь.
      Ответить
      
      anonimb84a2f6fd141 11.08.2013 16:27 # 0
      
      Проверил - таки да, элементы из дерева не дают удалить дерево. copy(элемент) решает проблему (ну или deepcopy() для дерева).
      Ответить
      
      Vindicar 12.08.2013 10:04 # 0
      
      http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#Improving%20Memory%20 Usage%20with%20extract
      Ну тащем-то это описано, но кто же в наши дни читает документацию? Если не заработает, спрошу на stackoverflow.
      Ответить
      
      anonimb84a2f6fd141 12.08.2013 18:30 # 0
      
      Проблема обычно в том, что У автора Все Работает, а вот у юзера, внезапно, нет. И начинается волейбол, у кого руки кривые.
      
      Я lxml имел в виду, на супе похожая проблема?
      Ответить
      
      Vindicar 13.08.2013 08:02 # 0
      
      Я суп и имел ввиду, но, судя по вашему вопросу, lxml тем же страдаетотличается. =)
      Ответить
      
      anonimb84a2f6fd141 11.08.2013 16:28 # 0
      
      А вот pyreadline - говнище, под виндой не дает юзать F7.
      Ответить
      
      anonimb84a2f6fd141 11.08.2013 16:45 # 0
      
      И еще, из нового lxml удалили .cssselect(), теперь для него нужно ставить внешний модуль. То есть, старые программы на новом lxml внезапно перестанут работать и надо будет ручками поставить модуль cssselect. Эт как?
      Ответить
      
      Vindicar 12.08.2013 10:35 # 0
      
      Это хз что.
      Удалили в версии для третьего питона хоть, или посредине ветки снесли?
      Ответить
      
      anonimb84a2f6fd141 12.08.2013 18:32 # 0
      
      В двойке тоже. Обновил lxml - хуяк и эксепт вылетает, типа модуль не найден. И главное, виндовый инсталлятор зависимости-то не ставит, на питухе pip install lxml небось автоматом cssselect ставил. Вот почему, сука, питон - такая вендовраждебная хуйня?
      Ответить
      
      Vindicar 13.08.2013 08:05 # 0
      
      Охренеть. Чтоб у них после апдейта прошивки авто рулевое колесо отвалилось! Причем на ходу.
      Ответить
      
      3.14159265 13.08.2013 16:14 # 0
      
      >Чтоб у них после апдейта прошивки авто рулевое колесо отвалилось
      Боюсь подумать если б на пхп написали...
      Ответить
      
      anonimb84a2f6fd141 13.08.2013 17:02 # 0
      
      Сейчас специально проверил еще раз - интересующимся рекомендую скачать исходники lxml, посмотреть lxml-3.2.3\src\lxml\cssselect.py и изучить setup.py на предмет наличия 'cssselect'. То есть, они и на прыщах хотят, чтобы юзер ручками ставил зависимости.
      
      In [3]: r=lxml.html.document_fromstring('<b>') In [6]: r.cssselect('a') <...> ImportError: cssselect seems not to be installed. See http://packages.python.org/cssselect/
      
      Вот какая моча бьет в голову даже авторам довольно серьезных расширений.
      Ответить
Добавить комментарий
Ошибка компиляции комментария:

Гости могут высказаться только в понедельник, среду, четверг или воскресение
Семь раз отмерь — один отрежь, guest!

А не использовать ли нам bbcode?

[b]жирный[/b] — жирный

[i]курсив[/i] — курсив

[u]подчеркнутый[/u] — подчеркнутый

[s]перечеркнутый[/s] — перечеркнутый

[blink]мигающий[/blink] — мигающий

[color=red]цвет[/color] — цвет (подробнее)

[size=20]размер[/size] — размер (подробнее)

[code=<language>]some code[/code] (подробнее)

Проверочный код: *

Говнокод: по колено в коде.

Python / Говнокод #13570

Комментарии (22) RSS

Добавить комментарий