beautifulsoupが3.0.1から3.2.0に変わったらHTMLParseErrorなくなってた!
beautifulsoupが3.0.1から3.2.0に変わったらHTMLParseErrorなくなっていました。
そういえばアップデートしてないなーとか思いながらeasy_installから実行したら、そうなっちまった。
良いことなのか悪いのか、
間違いなく例外とかfrom
importとか書き換えないと行けない場所が出てしまった。
しかし、パースエラーあった部分が問題なくパースされるようになったりどっこいどっこいなのかな。
で、まぁアップデートによって
from html5lib import HTMLParser
from html5lib import treebuilders
from BeautifulSoup import HTMLParseError
try:
soup = BeautifulSoup(html)
except HTMLParseError, e:
parser = HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
soup = parser.parse(html)
とかやって別なパーサーでエラー部分を除去って貰う形をとっていたことが必要なくなったのかな?
ということで前回書いた記事「BeautifulSoupでHTMLParseErrorが起きた時の対処」もこんなことやれば良かったのかな?
まぁまとめるとアップデートしとけ(゚Д゚)ゴルァ!! ですね・・・w