기 타 OCR처리된 PDF 파일에서...
2021.09.08 19:33
북스캔 후 OCR 처리 하려면 먼저 스캔 해서 PDF 파일을 만든 후 OCR 처리를 해야 한다고 알고 있습니다.
이렇게 OCR 처리까지 마친 PDF 파일에서 OCR 처리를 지우고 OCR 처리 전 파일인 순수한 PDF 파일을 만들 수 있는지요?
댓글 [6]
-
내가사는이유 2021.09.08 19:58 -
줄넘기 2021.09.08 22:18
이렇게 OCR 처리까지 마친 PDF 파일에서 OCR 처리를 지우고 OCR 처리 전 파일인 순수한 PDF 파일을 만들 수 있는지요?
=> 해보지는 않았지만, ocr된 pdf를 출력하면서 출력 형태를 pdf로 하면 기존의 ocr이 전부 없어질것 같습니다.
-
asklee 2021.09.08 22:40
줄넘기님 됩니다. 정말 발상의 전환이네요
감사합니다.
-
DarknessAngel 2021.09.09 08:35
다만 OCR 처리 과정에서 잘못 인식해서 손상된 문자열이나 오리지널의 폰트 정보같은건 다 날아갑니다
-
줄넘기 2021.09.09 08:56
네. 맞습니다. 인식률이 90%는 넘어도 결국에는 인간의 검수가 필요하기 때문에 ocr은 하지 않는게 나을 듯 합니다.
-
네오이즘 2021.09.09 11:12
모든 문서는 문서형태인 벡터방식과 그림형태인 비트맵방식으로 이뤄져 있습니다.
출판사에서 제공하는 PDF등은 제작문서 원본을 PDF로 변환하기때문에 벡터방식일 가능성이 높고 이경우 OCR을 안해도 문자 읽고 쓸수가 있습니다
(HWP파일을 PDF로 변환한 형식)
이에반해 개인이 책을 스캔을 하면 기본적으로 그림형태로 비트맵방식으로 스캔이 됩니다.
그위에 OCR을 하게 되면 글자가 내장되게 되는 방식인데......
이런 과정이랑 상관없이 PDF파일을 이미지화(래스터)시키면 OCR이고 뭐고 다 날라가고 그림만 남습니다.
스캔을 했으니 당연히 원본만 남겠죠
OCR이 힘든거지 래스터화시키는건 어렵지가 않습니다.
이게 왜 문제가 되는지 모르겠네요
번호 | 제목 | 글쓴이 | 조회 | 등록일 |
---|---|---|---|---|
[공지] | 질문과 답변 게시판 이용간 유의사항 | gooddew | - | - |
90683 | 소프트웨어| 윈도우 11에서 카카오톡 자주 오류납니다. [9] | 토니림 | 1395 | 09-10 |
90682 | 소프트웨어| 메인보드 부팅키를 눌렀을때, ventoy USB의 선택 옵션이 2개 | 가시광선 | 517 | 09-10 |
90681 | 윈 도 우| usb안에 윈도우설치 문의입니다.. [5] | 미스터k | 671 | 09-09 |
90680 | 기 타| 발난로 쓰시는 분 계신가요? 추천 좀 부탁드립니다. [2] | 현민지 | 359 | 09-09 |
90679 | 기 타| 후라이팬 가운데가 볼록 올라온 건 고칠 수 없나요? [2] | brucex | 2969 | 09-09 |
90678 | 소프트웨어| 윈도우 자체 백업 에러 함번 봐 주시겠사옵미까~ [3] | file | 297 | 09-09 |
90677 | 윈 도 우| ventoy 설치 오류가 납니다 ㅠㅠ [1] | kargan | 607 | 09-09 |
90676 | 윈 도 우| 배치파일 레지값 가져오기 중에서 [8] | 슈머슈마 | 235 | 09-09 |
90675 | 기 타| 우리나라 고궁 또는 한국적인 고화질 바탕화면 [2] | 번개 | 674 | 09-09 |
90674 | 기 타| 자료요청 | 잠못드는밤바지내리고 | 302 | 09-09 |
90673 | 소프트웨어| Edge 브라우저와 이미지미리보기파일 저장파일위치 | 컴알못러 | 153 | 09-09 |
90672 | 하드웨어| USB 이용시 에러증상 문의 및 USB 오류점검 프로그램 추천 [1] | 컴알못러 | 235 | 09-09 |
90671 | 소프트웨어| winrar 압축시 폴더제외 방법? [6] | 번개 | 294 | 09-09 |
90670 | 모 바 일| 구글계정 2개 등록해서 사용하는 방법좀 알려 주세요 [2] | 놋지미 | 730 | 09-09 |
90669 | 윈 도 우| 잠금화면에 대하여 질문 드립니다. [2] | 갠지스의잔 | 165 | 09-09 |
90668 | 소프트웨어| ms오피스 해마다 상위버전ㅈ나오는거 엑셀 같은 단축키가 ... [2] | 치국평천하 | 586 | 09-09 |
90667 | 윈 도 우| 무인 설치오류 [1] | 사이버해결 | 329 | 09-09 |
90666 | 윈 도 우| sysprep 봉인완료 후 wim이미지 부팅하면 다시 봉인화면으... [2] | 직구중독 | 427 | 09-08 |
90665 | 윈 도 우| 윈도우 업데이트 때 다시시작하고 화면 깜빡일때는 [1] | 치국평천하 | 348 | 09-08 |
» | 기 타| OCR처리된 PDF 파일에서... [6] | asklee | 407 | 09-08 |
불가능합니다.
필요없는 부분을 없애는 방식으로 처리한거라
그 없앤 부분을 다시 원본처럼 되살려 낼 수가 없습니다.
컬러 사진을 흑백 사진으로 만들었다가
다시 컬러 사진으로 만든다고 생각해보세요.
OCR처리라고 하신게 흑백처리 비슷하거든요.
요즘은 AI 로 원래 흑백사진도 컬러로 만들 수 있다고는 합니다만
그게 원본 컬러 사진은 아니죠.
비슷하게 복원했다고 합니다.