PDF에서 글자·이미지 꺼내기 — 복사가 안 될 때의 모든 경우
보고서에 인용할 문단, 발표 자료에 넣을 도표 — PDF에서 내용을 꺼낼 일은 많은데, 어떤 PDF는 복사가 되고 어떤 PDF는 드래그조차 안 됩니다. 이 차이만 이해하면 모든 경우의 해법이 정해집니다.
먼저 구분 — 내 PDF는 어느 쪽인가
판별법은 간단합니다. PDF를 열고 글자를 드래그해 보세요.
- 선택이 된다 → 텍스트 PDF — 워드·한글에서 저장한 문서. 글자 정보가 살아 있습니다.
- 선택이 안 된다 → 스캔 PDF — 종이를 스캔했거나 사진으로 만든 문서. 페이지 전체가 한 장의 그림입니다.
텍스트 PDF → 바로 추출
- PDF → 텍스트 추출 도구에 파일을 올립니다.
- 전체 또는 원하는 페이지의 텍스트를 추출합니다.
- 표·다단 부분은 줄 순서가 섞일 수 있으니 한 번 훑어보고 다듬습니다.
스캔 PDF → OCR 경로
스캔본은 두 단계를 거칩니다.
- PDF → 이미지로 글자가 필요한 페이지를 이미지로 변환합니다.
- 그 이미지를 이미지 OCR에 올려 글자를 인식·추출합니다.
- OCR 결과는 100% 정확하지 않으니 숫자·고유명사를 원본과 대조하세요.
페이지를 통째로 이미지로
글자가 아니라 모양 그대로가 필요할 때도 있습니다 — 발표 슬라이드에 도표 페이지를 넣거나, 문서 일부를 메신저로 공유할 때입니다.
- PDF → 이미지 변환으로 페이지를 JPG·PNG로 내려받아 그림처럼 삽입하면 글꼴 깨짐 없이 원본 모양이 유지됩니다.
- 화면용은 배율 1.5~2배면 선명합니다. 크게 확대할 페이지만 높은 배율로.
- 여러 페이지는 ZIP으로 한 번에 내려받아 골라 쓰면 됩니다.
그 PDF가 스캔본이기 때문입니다. PDF에는 두 종류가 있습니다. 워드·한글 등에서 저장해 글자 정보가 살아 있는 텍스트 PDF는 드래그 선택과 복사가 되고, 종이를 스캔하거나 사진으로 만든 PDF는 페이지 전체가 한 장의 그림이라 선택할 글자 자체가 없습니다. 스캔본에서 글자를 꺼내려면 글자 모양을 인식하는 OCR 과정을 거쳐야 합니다.
PDF의 특성 때문입니다. PDF는 문서 구조가 아니라 '어느 위치에 어떤 글자를 그린다'는 정보의 모음이라, 표·다단 편집·복잡한 레이아웃에서는 추출 순서가 화면에서 보는 순서와 다를 수 있습니다. 추출 후 표와 다단 부분만 한 번 훑어보며 다듬는 것이 현실적인 방법이고, 표가 중요한 문서라면 해당 페이지를 이미지로 만들어 OCR로 읽는 편이 나을 때도 있습니다.
PDF → 이미지 변환을 쓰면 됩니다. 원하는 페이지를 JPG·PNG로 변환해 내려받은 뒤 발표 자료에 그림으로 삽입하면 글꼴 깨짐 걱정 없이 원본 모양 그대로 들어갑니다. 화면용은 보통 배율 1.5~2배면 선명하고, 크게 확대해 보여 줄 페이지만 더 높은 배율로 변환하세요.