소프트웨어 OCR에 적절한 선택(컬러, 그레이, 흑백)은 어떤 것이 최상인가요?
2017.04.15 07:10
OCR에 적절한 선택(컬러, 그레이, 흑백)은 어떤 것이 최상인가요? 이 부분에 전문가님의 조언을 부탁드립니다.
책을 소장하는 것도 짐이 되어 책을 주로 pdf 파일로 만들어 소장하려고 합니다.
주로 심리학 관련 한글책이나 영어원서를 스캔한 후에 OCR로 변환합니다.
스캐너: Avision AD240(컬러, 그레이, 흑백)
이미지통합: Acrobat XI로 이미지를 통합한 후 파일로 만듦
Abbyy findreader v12로 텍스트 변환(Word 혹은 txt)
질문:
1. 스캐닝 할 때 어떤 선택이 가장 좋은 OCR 결과를 출력하는지요? 영어는 거의 99% 정도 변환이 가능한데 한글 변환은 70% 정도됩니다. 한글로 변환한 것은 거의 노가다 수준으로 다시 수정을 합니다.
이미지를 보통 jpg로 하는데 tif나 bmp로 할 경우 OCR 해상도가 높아지는지요? tif나 bmp 파일은 pdf로 만들 경우 파일 크가가 달라집니다. 어떤 선택이 OCR 해상도를 최적으로 할 수 있을까요?
2. 이미지를 통합할 때, pdf로 변환한 후 OCR 프로그램으로 출력합니다. pdf로 만든 것과 그냥 이미지를 OCR로 돌리는 것과 차이는 있는지요?
3. abbyy 프로그램보다 더 좋은 한글/영어 변환 OCR 프로그램(주로, 한글, 영어책 스캔)이 있는지요?
Happy day!
댓글 [3]
-
DarknessAngel 2017.04.15 20:19
-
파풍초 2017.04.16 00:56
DarknessAngel님!
적절한 도움에 감사드립니다. png 파일로 변환하여 스캔하고 OCR 작업을 해보도록 하겠습니다.
옛날 아르미로 작업할 때, bmp로 tif로 했고, 이후에는 jpg로 했는데, png 결과가 궁금하네요.
Happy day!
-
파풍초 2017.04.17 00:07
AD240 프로그램에는 저장 파일이 png가 없네요. ㅠㅠ
png 파일로 저장한 것의 OCR 해상도가 어떻게 되는지 정말 궁금하네요.
Happy day!
1. 2바이트 언어 인식율 100%는 아직 없어보입니다 (다만 70%는 너무 낮아보임)
일정 이하 품질로 지정 안 하는한 jpg라도 인식율 큰 차이는 없습니다 (다만 단순 흑백 중심인 스캔 특징상 jpg보단 png를 추천합니다)
2. 제가 해봣을때는 차이 없었습니다 (다만 프로그램이 포맷 지원 여하랑 관리 편의성이나 차후 다른 포맷 변환등의 여러요소 고려해서 정하시면 됩니다)
3. 2바이트 언어 포함시 아직까지 더 나은건 못 찾음