OCR

포스트: 45
Tags

Posts

45 posts
[OCR] 오픈소스 한글 등 (거의 모든 언어) 이미지에서 텍스트 변환

[OCR] 오픈소스 한글 등 (거의 모든 언어) 이미지에서 텍스트 변환

지훈현서|2017년 9월 1일

OCR 이라는 단어는 아마도 상당히 오래전부터 나온 용어로 생각됩니다.어쩌면 JPEG, PNG 등등의 이미지 디지털 포맷이 나오면서 부터 계속해서글자인식이란 요구가 계속 있어왔다고 보여집니다. 파이썬으로 한글 OCR이 있는가 살펴보다가,오픈소스로 tesseract (뜻:4차원육면체) 라는 것이 있다는 것을 알았습니다. 간단한 역사를 살펴보니, 휴렛패커드 (Hewlett-Packard Co) 사의 Greeley Colorado라는 사람이1985~1994 동안 연구를 하였고, 1996년에 윈도우로 포팅되었고, 1998년에 C++ 화 되었다고나오네요. 이를 2005년에 HP가 오픈소스로 변경하였고, 2006년 부터는 구글에서 개발됩니다. 올해(2017) 6월1일에 3.05에서 4.0 알파버전이 나왔는데