탭에서 블로그 목록을 보면 이런게 뜸
일단 RSS 목록 크롤링
네이버랑 이글루스, 티스토리가 있는데
먼저 제일 쉬운 티스토리 RSS를 크롤링해봄
조건은
1. 제목에 "자막"이 들어갈것
2. 첨부파일이 존재하고 확장자가 zip,rar,7z,smi,ass,srt 형식일것(일단 여기까지)
3. 제목에 "\d화" 가 들어갈것
그런데 하다가 뭔가 이상한거 발견함
이 블로그 RSS는 파일 링크가 없더라
조건 추가하고 어쩔수 없이 각 링크 가서 다시 크롤링해서 자막링크 찾아야함
작동은 되긴 되는데 크롤링 속도 느려짐
최적화 안해도 될것도 같고 다음에 해도 될거 같아서 넘어감
다음은 이글루스
'python' 카테고리의 다른 글
파일 이름 가져오기 (0) | 2018.03.02 |
---|---|
file download (0) | 2018.03.01 |
Blogspot 블로그 RSS (0) | 2018.02.28 |
네이버 블로그 RSS (0) | 2018.02.28 |
이글루스 블로그 RSS (0) | 2018.02.28 |