파이썬으로 웹 소스에서 값 추출

아래 첨부된 파이썬 함수는 웹페이지 소스를 불러들여 ft 파라미터부터 200자까지 소스를 잘라낸 후 lg와 rg사이에 있는 값을 추출한다. 

webpick.py
0.00MB

하지만 더 깔끔하고 좋은 방법이 있다. request로 웹소스를 불러와서 refined 변수에 넣은 후 정규표현식을 쓸 수 있는 re라이브러리를 import하여 아래와 같이 코딩하면 된다.

p = re.compile('<td>(.+?)</td>')
p_tag_list = p.findall(refined)

이렇게 하면 리스트로 <td>와 </td> 사이에 있는 값이 들어간다.

 

반응형