기 타 OCR처리된 PDF 파일에서...
2021.09.08 19:33
북스캔 후 OCR 처리 하려면 먼저 스캔 해서 PDF 파일을 만든 후 OCR 처리를 해야 한다고 알고 있습니다.
이렇게 OCR 처리까지 마친 PDF 파일에서 OCR 처리를 지우고 OCR 처리 전 파일인 순수한 PDF 파일을 만들 수 있는지요?
댓글 [6]
-
내가사는이유 2021.09.08 19:58 -
줄넘기 2021.09.08 22:18
이렇게 OCR 처리까지 마친 PDF 파일에서 OCR 처리를 지우고 OCR 처리 전 파일인 순수한 PDF 파일을 만들 수 있는지요?
=> 해보지는 않았지만, ocr된 pdf를 출력하면서 출력 형태를 pdf로 하면 기존의 ocr이 전부 없어질것 같습니다.
-
asklee 2021.09.08 22:40
줄넘기님 됩니다. 정말 발상의 전환이네요
감사합니다.
-
DarknessAngel 2021.09.09 08:35
다만 OCR 처리 과정에서 잘못 인식해서 손상된 문자열이나 오리지널의 폰트 정보같은건 다 날아갑니다
-
줄넘기 2021.09.09 08:56
네. 맞습니다. 인식률이 90%는 넘어도 결국에는 인간의 검수가 필요하기 때문에 ocr은 하지 않는게 나을 듯 합니다.
-
네오이즘 2021.09.09 11:12
모든 문서는 문서형태인 벡터방식과 그림형태인 비트맵방식으로 이뤄져 있습니다.
출판사에서 제공하는 PDF등은 제작문서 원본을 PDF로 변환하기때문에 벡터방식일 가능성이 높고 이경우 OCR을 안해도 문자 읽고 쓸수가 있습니다
(HWP파일을 PDF로 변환한 형식)
이에반해 개인이 책을 스캔을 하면 기본적으로 그림형태로 비트맵방식으로 스캔이 됩니다.
그위에 OCR을 하게 되면 글자가 내장되게 되는 방식인데......
이런 과정이랑 상관없이 PDF파일을 이미지화(래스터)시키면 OCR이고 뭐고 다 날라가고 그림만 남습니다.
스캔을 했으니 당연히 원본만 남겠죠
OCR이 힘든거지 래스터화시키는건 어렵지가 않습니다.
이게 왜 문제가 되는지 모르겠네요
번호 | 제목 | 글쓴이 | 조회 | 등록일 |
---|---|---|---|---|
[공지] | 질문과 답변 게시판 이용간 유의사항 | gooddew | - | - |
99064 | 기 타| 공유기 문의 [8] | 칠월일일 | 460 | 02-07 |
99063 | 소프트웨어| 간단하게 음원 편집할 수 있는 프로그램 [10] | 파란시계 | 435 | 02-07 |
99062 | 윈 도 우| 윈도우 정품키가 있는 홀로그램 스티커 [2] | 푸른하늘좋 | 604 | 02-07 |
99061 | 윈 도 우| 파워쉘 일괄 파일 삭제. [9] | 최강미뉴 | 179 | 02-07 |
99060 | 윈 도 우| GPT 파티션 데이터 손상없이 EFI 부트 복구방법 있나요? [6] | 타천사둘리 | 434 | 02-07 |
99059 | 기 타| 프린터가 인터넷 바꾸고 잡히질 않아여~~ [2] | gksEJreo | 329 | 02-07 |
99058 | 소프트웨어| [ PE ] VMWare Tools 설치 관련 문의드립니다. [10] | 시종일관 | 245 | 02-07 |
99057 | 하드웨어| b460메인보드 [1] | 천상천하 | 175 | 02-07 |
99056 | 기 타| 급여에서 이만큼 세금공제 정상 인가요? [4] | 놋지미 | 545 | 02-07 |
99055 | 하드웨어| 인텔 CPU 숫자 뒤에 붙는 K, F, KF는 차이가 뭔가요? [10] | 복두꺼비 | 531 | 02-07 |
99054 | 윈 도 우| 크롬창이 갑자기 자기혼자 커집니다 [1] | MSTSC | 157 | 02-06 |
99053 | 소프트웨어| Snappy Driver Installer 질문 입니다. | 마린블루 | 122 | 02-06 |
99052 | 소프트웨어| 프리미어에서 이 메뉴들이 나오질 않네요? | brucex | 111 | 02-06 |
99051 | 모 바 일| 안녕하십니까 ex fat포멧해 [2] | nissan | 339 | 02-06 |
99050 | 소프트웨어| 그림판 상단편집도구가 없어졌습니다 ㅠㅠ [8] | 안소링 | 309 | 02-06 |
99049 | 기 타| 윈도우11 카톡pc에러 [1] | 아프리카태 | 369 | 02-06 |
99048 | 소프트웨어| 포토샵 에러 [6] | 파란하늘촌 | 412 | 02-06 |
99047 | 기 타| 외장하드 폰 TV 연결 [4] | 묵춘 | 386 | 02-06 |
99046 | 윈 도 우| 엣지 이상 현상 겪으시는 분 계신가요? [3] | 오두막과시 | 541 | 02-05 |
99045 | 하드웨어| DDR4-2400과 DDR4-2400T 차이 [1] | asklee | 476 | 02-05 |
불가능합니다.
필요없는 부분을 없애는 방식으로 처리한거라
그 없앤 부분을 다시 원본처럼 되살려 낼 수가 없습니다.
컬러 사진을 흑백 사진으로 만들었다가
다시 컬러 사진으로 만든다고 생각해보세요.
OCR처리라고 하신게 흑백처리 비슷하거든요.
요즘은 AI 로 원래 흑백사진도 컬러로 만들 수 있다고는 합니다만
그게 원본 컬러 사진은 아니죠.
비슷하게 복원했다고 합니다.