사진 속 글자 추출하기(OCR) — 인식률 높이는 법
회의 자료를 찍은 사진, 책의 한 페이지, 캡처한 공지문 — 내용을 다시 타이핑하려면 한숨부터 나옵니다. OCR(광학 문자 인식)을 쓰면 이미지 속 글자를 복사 가능한 텍스트로 한 번에 추출할 수 있습니다. 사용법과 함께, 결과 품질을 좌우하는 촬영 요령을 정리합니다.
OCR이란?
OCR(Optical Character Recognition, 광학 문자 인식)은 이미지 속 글자 모양을 분석해 텍스트 데이터로 바꾸는 기술입니다. 사진 속 글자는 원래 '그림'이라 복사가 안 되지만, OCR을 거치면 메모장에 붙여넣고 검색·편집할 수 있는 진짜 글자가 됩니다.
- 종이 문서 사진 → 텍스트로 보관·검색
- 스크린샷 속 긴 공지 → 복사해서 공유
- 책·전단지의 일부 → 인용·번역용 텍스트로
브라우저에서 글자 추출하는 단계
- 글자가 잘 보이는 사진·스크린샷을 준비합니다.
- OCR 도구에 이미지를 올리고 언어(한국어·영어 등)를 선택합니다.
- 인식 버튼을 누르면 잠시 후 추출된 텍스트가 표시됩니다.
- 결과를 원문과 대조해 오인식을 고친 뒤 복사해 사용합니다.
인식률을 높이는 요령
- 정면에서, 수평으로: 비스듬히 찍힌 글자는 인식률이 급격히 떨어집니다. 문서와 카메라를 평행하게 맞추세요.
- 밝게, 그림자 없이: 손이나 휴대폰 그림자가 글자를 덮지 않게 합니다. 자연광이나 균일한 조명이 좋습니다.
- 대비를 크게: 흰 종이의 검은 글씨가 가장 잘 됩니다. 색 배경·워터마크 위의 글자는 어렵습니다.
- 필요한 부분만 크게: 전체 페이지보다, 필요한 문단만 잘라서 올리면 더 정확합니다.
- 해상도 확보: 글자가 뭉개질 정도로 작거나 흐린 사진은 다시 찍는 것이 빠릅니다.
OCR의 한계와 후처리
인쇄된 표준 글꼴은 인식률이 높지만, 손글씨·흘림체·장식 글꼴·도장이 겹친 글자는 오인식이 많습니다. 숫자 0과 알파벳 O, 한글 '롤'과 '를'처럼 모양이 비슷한 글자도 헷갈립니다.
광학 문자 인식(Optical Character Recognition)의 약자로, 이미지 속 글자 모양을 분석해 복사·편집할 수 있는 텍스트로 바꾸는 기술입니다. 문서를 찍은 사진, 스크린샷, 스캔본에서 내용을 다시 타이핑하지 않고 추출할 때 사용합니다.
글자가 크고 선명할수록 잘 인식됩니다. 문서를 정면에서 수평으로 찍고, 그림자 없이 밝은 곳에서 촬영하세요. 배경과 글자의 대비가 클수록(흰 종이에 검은 글씨) 좋고, 흐릿하거나 기울어진 사진은 인식률이 크게 떨어집니다. 필요한 부분만 잘라서 올리는 것도 효과적입니다.
인쇄된 글자(고딕·명조 등 표준 글꼴)는 인식률이 높지만, 손글씨·흘림체·장식 글꼴은 인식률이 많이 떨어집니다. 또렷하게 또박또박 쓴 손글씨는 어느 정도 인식되기도 하지만, 결과를 원문과 대조해 교정하는 과정이 필요합니다.