Question 1

Q. 스캔한 PDF인데 텍스트가 안 나와요.

Accepted Answer

스캔본이나 사진으로 만든 PDF는 글자가 '이미지'로 들어 있어 추출할 텍스트 레이어가 없습니다. 이 경우에는 글자를 인식하는 OCR이 필요합니다. 도구상자의 '이미지 OCR' 도구로 해당 페이지를 이미지로 만들어 글자를 인식하는 방법을 사용하세요.

Question 2

Q. 표나 단 나눔이 있는 PDF는 줄이 뒤섞일 수 있나요?

Accepted Answer

그럴 수 있습니다. PDF는 글자의 위치 정보로 이루어져 있어, 표·다단 편집·복잡한 레이아웃에서는 추출된 텍스트의 순서가 화면 보기와 다르게 섞일 수 있습니다. 추출 후 문단·표 부분은 한 번 훑어보고 다듬는 것이 좋습니다.

Question 3

Q. PDF 파일이 서버로 전송되나요?

Accepted Answer

아니요. PDF를 여는 것부터 텍스트를 뽑아내는 과정까지 모두 사용자의 브라우저 안에서 이뤄집니다. 파일은 서버로 전송되거나 저장되지 않으므로 계약서·보고서 같은 민감한 문서도 안전하게 처리할 수 있습니다.

Question 4

Q. 특정 페이지만 골라서 추출할 수 있나요?

Accepted Answer

이 도구는 PDF의 모든 페이지를 처음부터 끝까지 순서대로 읽어 한 번에 텍스트로 뽑아냅니다. 결과는 페이지 구분선과 함께 표시되므로, 필요한 부분만 쓰려면 추출이 끝난 뒤 해당 쪽 구간을 골라 복사하면 됩니다.

Question 5

Q. 추출한 텍스트의 줄바꿈이 원본과 다르게 나오는 이유는 무엇인가요?

Accepted Answer

PDF는 글자가 화면 위 좌표에 흩어져 있는 형태라, 어디까지가 한 문장이고 어디서 줄을 바꿔야 하는지가 명확하지 않습니다. 그래서 줄바꿈이 원본 보기와 다르게 들어갈 수 있습니다. 추출 후 공백·줄바꿈 정리 도구로 한 번 다듬으면 문단이 깔끔해집니다.

PDF → 텍스트 추출