광학문자인식
Posts
3 posts
OCR 뜻 문자 인식 스캔 기능 원리, PDF 사진 텍스트 추출 가능!
요즘 디지털 세상에서 이미지 파일이나 스캔된 문서를 텍스트로 변환해야 하는 일이 자주 있죠? 이럴 때 딱 필요한 기술이 바로 OCR(Optical Character Recognition), 즉 광학 문자 인식입니다. 오늘은 OCR이란 무엇인지, 어떻게 작동하는지, 그리고 PDF나 사진에서 텍스트를 추출하는 방법까지 자세히 알려드릴게요. 1. OCR이란? OCR은 이미지 속 글자를 텍스트로 변환해주는 기술이에요. 예를 들어 종이에 인쇄된 문서를 스캔하면 단순히 이미지 파일로 저장되지만, OCR을 사용하면 이 이미지에서 글자를 읽고 디지털 텍스트로 바꿀 수 있답니다. 이렇게 변환된 텍스트는 편집, 검색, 저장이 가능해져서 정말 유용하죠. 2. OCR 기술, 어떻게 작.......
gImageReader - 리눅스용 광학문자인식(OCR) GUI S/W
gImageReader는 광학문자인식(OCR)을 위한 GUI S/W이다. 테서랙트(tesseract) OCR 엔진과 연동하여 이미지 파일로부터 문자를 추출해 준다. 테서렉트에 대한 내용은 이전 게시물을 참고하자. 여기로 우분투/데비안 기반 배포판을 기준으로 아래와 같이 설치하면 되겠다. 테서랙트가 이미 설치되어 있다는 것을 전제로 한다. gImageReader는 GUI 기반의 사용자 인터페이스가 중심이고 실제 문자인식은 테서랙트에 의해 이루어진다. # S/W 저장소 갱신 sudo apt-get update # gImageReader 설치 sudo apt-get install gimagereader # gImageReader 실행 gimagereader-gtk GUI 기반이라
테서랙트(tesseract) - 리눅스에서 광학문자인식(OCR)
테서랙트(tesseract)는 리눅스용 오픈소스 광학문자인식(OCR) S/W이다. 오픈소스이므로 무료로 사용할 수 있다. 테서랙트의 깃허브(github) 페이지는 아래의 링크로 가면 된다. 100개 이상의 언어를 지원하며, 데비안/우분투 기반 배포판의 경우 공식 S/W 저장소에 이미 포함되어 있으므로 apt-get 명령어로 설치하면 된다. # S/W 저장소 갱신 sudo apt-get update # tesseract-ocr 설치 sudo apt-get install tesseract-ocr # 영어(eng), 한국어(kor, hang), 일본어용(jpn, jpan) 파일 설치 sudo apt-get install tesseract-ocr-eng tesseract-ocr-ko


