TESSERACT
Posts
3 postsgImageReader - 리눅스용 광학문자인식(OCR) GUI S/W
gImageReader는 광학문자인식(OCR)을 위한 GUI S/W이다. 테서랙트(tesseract) OCR 엔진과 연동하여 이미지 파일로부터 문자를 추출해 준다. 테서렉트에 대한 내용은 이전 게시물을 참고하자. 여기로 우분투/데비안 기반 배포판을 기준으로 아래와 같이 설치하면 되겠다. 테서랙트가 이미 설치되어 있다는 것을 전제로 한다. gImageReader는 GUI 기반의 사용자 인터페이스가 중심이고 실제 문자인식은 테서랙트에 의해 이루어진다. # S/W 저장소 갱신 sudo apt-get update # gImageReader 설치 sudo apt-get install gimagereader # gImageReader 실행 gimagereader-gtk GUI 기반이라
테서랙트(tesseract) - 리눅스에서 광학문자인식(OCR)
테서랙트(tesseract)는 리눅스용 오픈소스 광학문자인식(OCR) S/W이다. 오픈소스이므로 무료로 사용할 수 있다. 테서랙트의 깃허브(github) 페이지는 아래의 링크로 가면 된다. 100개 이상의 언어를 지원하며, 데비안/우분투 기반 배포판의 경우 공식 S/W 저장소에 이미 포함되어 있으므로 apt-get 명령어로 설치하면 된다. # S/W 저장소 갱신 sudo apt-get update # tesseract-ocr 설치 sudo apt-get install tesseract-ocr # 영어(eng), 한국어(kor, hang), 일본어용(jpn, jpan) 파일 설치 sudo apt-get install tesseract-ocr-eng tesseract-ocr-ko
![[OCR] 오픈소스 한글 등 (거의 모든 언어) 이미지에서 텍스트 변환](https://img.zoomtrend.com/2017/09/01/a0105618_59a92031571e7.png)
[OCR] 오픈소스 한글 등 (거의 모든 언어) 이미지에서 텍스트 변환
OCR 이라는 단어는 아마도 상당히 오래전부터 나온 용어로 생각됩니다.어쩌면 JPEG, PNG 등등의 이미지 디지털 포맷이 나오면서 부터 계속해서글자인식이란 요구가 계속 있어왔다고 보여집니다. 파이썬으로 한글 OCR이 있는가 살펴보다가,오픈소스로 tesseract (뜻:4차원육면체) 라는 것이 있다는 것을 알았습니다. 간단한 역사를 살펴보니, 휴렛패커드 (Hewlett-Packard Co) 사의 Greeley Colorado라는 사람이1985~1994 동안 연구를 하였고, 1996년에 윈도우로 포팅되었고, 1998년에 C++ 화 되었다고나오네요. 이를 2005년에 HP가 오픈소스로 변경하였고, 2006년 부터는 구글에서 개발됩니다. 올해(2017) 6월1일에 3.05에서 4.0 알파버전이 나왔는데


