본문 바로가기

python

티스토리 블로그 RSS


http://smidown.com/ 

탭에서 블로그 목록을 보면 이런게 뜸

일단 RSS 목록 크롤링



네이버랑 이글루스, 티스토리가 있는데


먼저 제일 쉬운 티스토리 RSS를 크롤링해봄

조건은 

1. 제목에 "자막"이 들어갈것

2. 첨부파일이 존재하고 확장자가 zip,rar,7z,smi,ass,srt 형식일것(일단 여기까지)

3. 제목에 "\d화" 가 들어갈것



그런데 하다가 뭔가 이상한거 발견함

http://mglna.tistory.com/rss

이 블로그 RSS는 파일 링크가 없더라 

조건 추가하고 어쩔수 없이 각 링크 가서 다시 크롤링해서 자막링크 찾아야함


작동은 되긴 되는데 크롤링 속도 느려짐 


최적화 안해도 될것도 같고 다음에 해도 될거 같아서 넘어감


다음은 이글루스




'python' 카테고리의 다른 글

파일 이름 가져오기  (0) 2018.03.02
file download  (0) 2018.03.01
Blogspot 블로그 RSS  (0) 2018.02.28
네이버 블로그 RSS  (0) 2018.02.28
이글루스 블로그 RSS  (0) 2018.02.28