tesseract를 이용한 OCR 테스트
파이썬을 설치했으니 가장 간단한 테스트를 하나 해볼까 합니다. tesseract를 이용해서 이미지에 있는 문자를 인식하는 코드를 작성해보도록 하겠습니다. 파이썬의 경우 라이브러리가 굉장히 잘되어 있기때문에 라이브러리를 잘 이용하면 구현하는데 크게 어려움이 없습니다.
파이썬에는 OCR 관련된 라이브러리도 많은데 그 중 구글에서 개발한 tesseract를 이용해서 문자인식을 진행해보았습니다. 그럼 아래에서 tesseract를 이용한 문자인식 하는 방법에 대해서 알아보도록 하겠습니다.
개발환경 : Windows 10 / 파이참
tesseract를 이용한 OCR 테스트
tesseract를 이용하기 위해서는 tesseract를 설치하고 라이브러리를 import 해야한다.
tesseract 설치는 아래의 tesseract github에서 진행할 수 있다.
https://github.com/tesseract-ocr/tesseract/wiki
▼ tesseract github로 이동 후 스크롤을 아래로 내리면 Windows용 설치파일을 받을 수 있습니다.
'Tesseract at UB Mannheim'을 선택하고 환경에 맞는 버전을 선택해서 설치하면 됩니다.
▼ 파이참에서 tesseract를 이용하기 위해서 tessaract 모듈을 설치합니다.
File 메뉴를 선택해서 Settings 메뉴로 진입합니다.
▼ Project Interpreter를 선택해서 우측에 있는 + 메뉴를 선택합니다.
▼ pytesseract로 검색을 해서 하단의 install package를 선택하면 설치가 완료됩니다.
▼ 이제 tesseract 사용준비가 끝났습니다.
간단하게 코드를 작성해 보겠습니다.
from PIL import Image
from pytesseract import *
pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract'
img = Image.open('test_image.png')
text = pytesseract.image_to_string(img, lang='kor')
print(text)
▼ 인식하고자 하는 사진은 아래와 같습니다.
▼ 인식이 잘 되는것을 확인 할 수 있습니다.
문장이 길어지면 인식률이 많이 떨어지긴 하는데 그래도 간단한 문자는 인식됨을 확인할 수 있었습니다. 인식률을 올리기 위해서 open-cv를 이용해 이미지 전처리가 필요하기도 하지만 이번 포스팅에서는 여기까지만 진행하도록 하겠습니다.
'파이썬' 카테고리의 다른 글
[파이썬 시작하기] 파이썬 개발환경 구축(설치 및 환경설정) (0) | 2020.08.19 |
---|
최근댓글