소프트웨어 Emeditor 정규표현식 영어문장에서 독일어 단어만 찾기 질문입니다.
2024.05.12 13:24
아래의 문장에서 독일어 단어만 찾기가 가능한지요? 아래의 표현식으로는 독일어 단어만 찾기가 되지 않습니다. 독일어 단어 찾기만 가능한 표현식이 있으면 도움을 부탁드립니다.
\s([a-zA-Z]+)\s
eines Zwangsimpulses, Zwang
아래처럼 하면 움라우트 있는 단어는 찾아지는데, 움라우트가 없는 독일어는 영어처럼 동일하게 취급되는 듯합니다. 챗GPT에 질문해도 안되네요.
찾기: \s([äöüßÄÖÜa-zA-Z]+)\s
It not at all infrequently happens that it is only after doing a certain amount of psychoanalytic work with a patient that an analyst can succeed in learning the actual content of a phobia, the precise form of words of an obsessional impulse eines Zwangsimpulses, and so on. Repression Zwang has not only descended upon the unconscious complexes, but it is continually attacking their derivatives as well, and even prevents the patient from becoming aware of the products of the disease itself. The analyst thus finds himself in the position, curious for a doctor, of coming to the help of a disease, and of procuring it its due of attention.
댓글 [9]
-
YoungSS 2024.05.12 14:36
-
파풍초 2024.05.12 14:55
에스에스님께, 도움 감사드립니다.
아래 찾기로 하면 eines Zwangsimpulses, Zwang는 안찾아지고 한글과 움라우트 독일어 단어만 찾아집니다.
찾기: ([^\x00-\x7F])+
-
파풍초 2024.05.12 14:59
[^[:ascii:]]로 하면 화면처럼 에러가 납니다.
-
YoungSS 2024.05.12 15:24
네. 움라우트만 찾아지고 요거는 [a-zA-Z] 영어범위에 있어서
따로 찾아지질 않네요. 유니코드쪽으로 독일어만 콕 집어야 될거같은데
저도 지금 모르겠네요.
eines Zwangsimpulses, Zwang
이건 전 이렇게 매치되는데
정규표현식을 쓰는 프로그래밍 언어 차이때문인가 싶네요.
님에게 에러나면 쓸필요 없죠.
-
파풍초 2024.05.12 19:19
에스에스님께, 도움 감사드립니다.
저는 emeditor만 사용하고 있어서 프로그램에 따라 정규표현식의 결과가 차이가 있을 수 있다는 것을 처음 알게 되었습니다.
-
夕影 2024.05.12 17:52
onigmo의 유니코드 지원이 강력합니다
고급 옵션에서 정규식 엔진을 onigmo 로 변경하고 다음과 같이 해보세요
\p{Latin}참조
https://github.com/k-takata/Onigmo/blob/master/doc/RE
https://github.com/k-takata/Onigmo/blob/master/doc/UnicodeProps.txt -
파풍초 2024.05.12 19:24
석영님께, 도움 감사드립니다.
저는 초보자라서 emeditor 외에는 잘 모릅니다.
emeditor를 사용하면서 조금씩 배워가면서 적용하고 있는 중입니다.
그림처럼 \p{Latin}을 했는데, 영어 단어들은 모두 선택이 됩니다.
-
夕影 2024.05.12 20:37
다음의 독일어 문장을 유니코드로 변환하면
DAS IST MIR WURST
\u0044\u0041\u0053\u0020\u0049\u0053\u0054\u0020\u004d\u0049\u0052\u002
독일어 인코딩 결과가 영어 인코딩 결과와 똑같습니다독일어가 영어와 같은 유니코드 인코딩 값을 이용하기 때문에 정규식으로 독일어 판별은 불가능합니다
-
파풍초 2024.05.13 00:01
석영님께, 도움 감사드립니다.
차선택으로 움라우트가 있는 것이라도 찾을 수가 있어서 다행입니다.
편안한 밤 되십시오.
구글에 Find Non-ASCII Character Regular Expression
검색하면 나옵니다.
밑의 두가지 다 독일어가 매치되고,
영어외 매치라서 한글도 찾아지고요.
([^\x00-\x7F])+
[^[:ascii:]]