티스토리

DARKER THAN BLACK 黒の契約者

검색하기

Tesseract - OCR 연습

python

Tesseract - OCR 연습

장곰부대 2018. 3. 23. 09:48

1. 이미지를 구한다.

대략 2000개(정확히는 1995개), 실제로 모 사이트에서 사용되고 있는 캡챠 이미지

2. 기본 설정

일단 숫자 2개 나오는 것만 추려내니깐

1995개의 이미지 중 300개 인식

평균 간격 7개 최대 간격 36개

참고로 인식만 한거지 다 맞는건 아니다. 처음 인식한 이미지 10개만 확인해보니 1개 틀림

3. 커맨드 추가

outputbase digits

-c tessedit_char_whitelist=0123456789

-lang osd

--psm 6

-lang osd --psm 6 outputbase digits

인식률 98퍼

정확도는 처음 10개만 봤는데 2개 틀림

이 정도면 루프 최대 5번 이내에 캡챠 뚫음

~~4. Tesseract user data, pattern~~

~~5. 이미지처리 opencv~~

이건 다음에 해봐야징

참조

https://stackoverflow.com/questions/4944830/how-to-make-tesseract-to-recognize-only-numbers-when-they-are-mixed-with-letter

http://blog.naver.com/samsjang/220694855018

https://github.com/GeertJohan/go.tesseract/blob/master/tesseract.go#L347

https://github.com/tesseract-ocr/tesseract/wiki/Data-Files

https://github.com/tesseract-ocr/tesseract/issues/960

저작자표시 비영리