1. 이미지를 구한다.
대략 2000개(정확히는 1995개), 실제로 모 사이트에서 사용되고 있는 캡챠 이미지
2. 기본 설정
일단 숫자 2개 나오는 것만 추려내니깐
1995개의 이미지 중 300개 인식
평균 간격 7개 최대 간격 36개
참고로 인식만 한거지 다 맞는건 아니다. 처음 인식한 이미지 10개만 확인해보니 1개 틀림
3. 커맨드 추가
outputbase digits
-c tessedit_char_whitelist=0123456789
-lang osd
--psm 6
-lang osd --psm 6 outputbase digits
인식률 98퍼
정확도는 처음 10개만 봤는데 2개 틀림
이 정도면 루프 최대 5번 이내에 캡챠 뚫음
4. Tesseract user data, pattern
5. 이미지처리 opencv
이건 다음에 해봐야징
참조
http://blog.naver.com/samsjang/220694855018
https://github.com/GeertJohan/go.tesseract/blob/master/tesseract.go#L347
https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
https://github.com/tesseract-ocr/tesseract/issues/960
'python' 카테고리의 다른 글
(19)번역 api 사용 후기 (0) | 2018.04.07 |
---|---|
django-tube 튜토리얼 하면서 생긴 오류 (0) | 2018.04.04 |
깨진 한글 인코딩 찾기 (0) | 2018.03.07 |
Share counter in processes (0) | 2018.03.05 |
Mutiprocess Downloader (0) | 2018.03.05 |