1. Tesseact-OCR이란 무엇인가?
Tesseract-OCR은 광학 문자 인식(OCR)을 위한 오픈 소스 소프트웨어 엔진입니다. Tesseract는 현재 Google에서 획득하여 오픈 소스로 공개되어 있습니다. 이 OCR 소프트웨어은 이미지나 스캔된 문서에서 텍스트를 추출하는 데 사용됩니다.
Tesseract는 다양한 언어를 지원하며, 특히 광학 문자 인식 분야에서 성능이 우수한 것으로 알려져 있습니다. 이미지에서 문자를 감지하고 추출하여 텍스트로 변환하는 데 사용되며, 이는 문서 스캐닝, 자동화, 텍스트 데이터 마이닝 등 다양한 응용 분야에서 활용됩니다.
이 OCR소프트웨어를 설치하여 엑셀 VBA를 활용해 자동으로 특정 이미지 파일에서 글자를 인식하여 추출하는 것을 해보려고 합니다.
2. Tesseract-OCR의 설치방법과 환경변수 적용방법
이하 링크에 들어가시면 Tesseract-OCR의 다운로드 파일이 있습니다.
하기 이미지에서 보이시는 최신버전의 exe설치파일 (64bit)을 다운로드 받아서 실행시켜주세요.
https://github.com/UB-Mannheim/tesseract/wiki
설치파일을 실행시킨 후 이하 화면에서 반드시 Addtional script data와 addtional language data에서 자신이 필요한 언어를 체크해주세요.
설치가 완료되었으면 설치된 경로를 확인하여, 이하와 같이 환경변수를 등록해줘야 합니다.
Window검색창에 환경변수를 검색 → 시스템 속성창의 환경변수 클릭 → 편집을 눌러 Tesseract가 설치된 경로 추가
3. Tesseract-OCR의 VBA에서 사용방법
상기 사항까지 설치가 완료되었다면 설치된 Tesseract.exe파일을 VBA의 Shell 메소드를 이용하여 실행시켜 필요한 이미지파일을 OCR의 기능을 사용하여 문자를 식별한 후, 이하와 같이 엑셀에도 글자로 추출될 수 있고, 별도로 메모장 형식의 .txt파일로도 만들 수 있습니다.
예시로 상기 Tesseract-OCR의 다운로드 경로의 웹사이트를 스크린 샷으로 이미지 파일로 만들어서, VBA를 통해 글자를
추출해본 결과입니다.
실제 파일은 하기 4번 사항을 참고 부탁드립니다.
4. 직접 만든 Tesseract-OCR VBA파일 공유
제가 직접 만든 엑셀 VBA파일을 공유합니다. 필요하신 분은 댓글을 남겨주세요.
특정 기간만 공유를 할 예정이므로 참고 부탁드립니다.
먼저, 주의사항으로는 이하를 참고 부탁드립니다.
●이 파일을 사용할 때는 반드시Tesseract-OCR와 언어가 다운로드 필요합니다. |
●이미지 중에서도 영어는 99%정확률로 추출 가능, 다른 언어도 가능하지만 이미지 해상도, 경우에 따른 차이 있음 |
●이미지의 화질이 좋을수록 정확도가 상승함 |
사용방법은 엑셀파일의 개시버튼을 누르면 유저폼으로 나타나도록 해놨으니 이하 그림을 참고부탁드립니다.
또한, 추출할 언어의 경우 현재는 일본어, 영어, 한국어로 메뉴를 설정해놨으니 참고바랍니다.
사용방법
1. J1셀에 C:\Users\AppData\Local\Programs\Tesseract-OCR\tesseract.exe와 같이 본인이 설치한 Tesseract.exe파일의 지정이 필요함
2. 기타사항은 이하 그림 참조