문장에서 글자와 띄어쓰기말고 나머지를 제거할 수 있을까요?
2011.10.14 21:31
한문장에는 여러 가지 가 있죠
쉼표 띄어쓰기 한글 영어 한문 마침표 등등
그런데 저는 연습하는 게 있어서 한글과 띄어쓰기만 필요합니다.
나머지는 필요가 없죠
그런데 나머지를 지울 수 있는 방법을 모르겠네요
특정문자나 그런것은 찾아서 지우면 되지만
한문이나 영어는 한두가지가 아니라서 일일이 지우기도 힘들구요
이렇게 걸러내는 방법이 없을 까요?
댓글 [5]
-
꼬마야 2011.10.14 21:57
-
글루미라이프 2011.10.14 22:06
꼬마야님 죄송하지만 무슨내용인지 모르겠네요 자바를 이용해서 가능한가요? 영문 숫자외에도 한문이나 괄호같은 글자를 제외한 모든 문자도 가능할까요? -
꼬마야 2011.10.14 23:01
답변이 늦었네요.. 정규식이란, 특정패턴으로 문자열을 처리하는것인데요..패턴에는 모든 숫자, 모든 영문, 등등을 나타내는 기호들이 있고, 그것을 대치하거나, 찾는데 사용합니다.
제가 할줄 아는 언어중에서 정규식 라이브러리를 지원하는 언어가 자바와 파이썬이라서 두가지 언어를 말씀드린것이고요..
뭐 자바스크립트에서도 가능한데, 웹페이지를 이용해서 만드는것도 간단할것 같기도 하고요..
아 그러고보니 정규식 지원하는 에디터들이 있네요.. ultraedit에서 정규식으로 바꾸기 가능할겁니다.
아 그런데 한문은 어떻게 해야할지 모르겟네요.. unicode 파싱까지 해야할듯.. ㅎㄷㄷ
아무래도 프로그램을 짜야할것 같네요.. 도저히 모르겠으면 저한테 쪽지주세요.
-
글루미라이프 2011.10.15 10:46
딱히 방법이 없는것 같네요 그냥 시간이 걸려도 수동으로 편집해야겠네요 답변 감사합니다~~
-
꼬마야 2011.10.16 03:37
한문만 없다면.. 간단할것같은데요.. 한문이 있으니.. 아마 제가 짠다면 자바로 짤건데요..
한문이 들어갔다고 하니까.. character encoding을 파싱해서 (아마 UTF8 일듯..) 한문부터 날린후에..
정규식으로 필터링하면 될것같은데...만약 UTF 계열이 아닌 enu-kr 이나 기타 다른 인코딩이면.. 흑흑.. 고생길열리네요 ㅋㅋ
정규식으로 지우세요.. 영문/숫자등등 쉽게 지울수있읍니다.
간단하게 자바나 파이썬으로 하면 금방할것같은데요..