Shinnara's Blog
Talking with Shinnara :: NaraTalk.com

'정규 표현식'에 해당되는 글 3건

  1. 2008/12/15 Regular Expression 을 실제 작업에 이용하기 (2) (1)
  2. 2008/12/13 Greedy 와 UnGreedy
  3. 2008/12/13 Regular Expression 을 실제 작업에 이용하기
Regular Expression을 실제 작업에 이용하기에 이은 두번째 글입니다. 이번 글에서는 지난 글에서 소개하지 못했던 자바 소스에 대해서 간략히 설명을 할까 합니다. 그리고는 고수님들의 조언을 받아서 리팩토링도 하고, 또 다른 언어로 바꾸어볼까도 생각합니다. 지난 글에서 밝혔듯이 처음에 작성하고 섣불리 팀내에 배포했다가 몇가지 패턴을 인식못하고  또 잘못 바꾸어주는 덕에 테스트의 중요성을 실감한 사건이기도 했습니다. 정말이지 테스트는 무지 중요합니다. ^^


먼저 소스 코드입니다. 너무 짧은 코드라서 설명할 거리가 별로 없기도 합니다.

전체 소스 코드 보기


 배포했다가 버그를 발견하면서 Regular Expression에 대해 좀더 많은 고려를 해야 한다는 것을 느끼게 되었습니다. 다른 글을 통해 Greedy와 Ungreedy에 대한 짧은 글도 썼는데, 정말이지 Regular Expression의 특성은 꼭 알고 가셔야 합니다. 그래야 저처럼 실수 하지 않겠지요.. ^^

 제가 작성한 프로그램과 똑같은 일을 수행하는 코드를 Regular Expression을 이용하지 않고 단순히 indexOf 만으로도 충분히 구현이 가능하고 오히려 버그의 개입 여지가 더 없을 수도 있으리라고 생각합니다. 하지만 Regular Expression을 실제 업무에 사용하는 것이 이 글의 목적이기때문에 이에 대한 이해해 주시기 바랍니다.

    public static void showUsage()
    {
        System.out.println("Event Log Remover (build 003)");
        System.out.println("Usage:");
        System.out.println(" options file file ...\n");
        System.out.println("[OPTIONS]");
        System.out.println(" -v    verbose mode");
        System.out.println(" -a    add preprocessing statements");
        System.out.println(" -d    delete event log message");
        System.out.println(" -r    restore original event log");
        System.out.println(" -i    apply indentation");
        System.out.println("");
        System.out.println("2008.12.15\nHyun-Kyu Shin\n");       
    }

위의 코드는 프로그램의 사용법을 나타내주는 부분입니다. 이것을 먼저 보여드리는 이유는 이 프로그램이 무엇을 하는지를 먼저 보여드리기 위해서입니다.  앞의 글에서 설명했듯이 C 프로그램내에 존재하는 event_log에 대해서 원하는 작업을 수행하는 것이 목적입니다. LogRemover는 모두 세개의 모드를 지원합니다. #ifdef~#else~#endif 를 새롭게 적용하는 -a 모드, 모든 이벤트 메시지를 제거하는 -d 모드, #ifdef~#else~#endif 구문을 다시 제거하는 -r 모드. 그리고 -v 는 처리 과정을 표시하고,-i는 들여쓰기를 지원합니다. 처리 대상이 되는 파일은 동시에 여러개를 입력할 수 있고, 디렉토리인 경우는 하위 디렉토리에 대해서 모두 처리를 수행하게 됩니다.

프로그램의 다른 부분은 별도의 설명이 필요없을 정도로 단순하므로 처리의 핵심인 void doJob(File srcFile) 부분에 대해서만 살펴보도록 하겠습니다.

    public void doJob(File srcFile)
    {   
        totalFiles ++;
       
        if( isVerbose ) System.out.print("["+totalFiles + "]" + srcFile.getName());
       
        int replaced = 0;
       
        String replaceRegExp = "(event_log\\s*\\(\\s*[a-zA-Z_0-9\\[\\]]+\\s*),.*";
        String replaceRegExp2 = "$1\\);";
       
        try{
            File tempFile = new File("temp_"+srcFile.getName());
           
            BufferedReader br = new BufferedReader(new FileReader(srcFile));
            BufferedWriter bw = new BufferedWriter(new FileWriter(tempFile));
           
            String line;
           
            boolean isIfDefStarted = false;
           
           
            while( (line = br.readLine()) != null)
            {           
                if( line.matches("^.*#ifdef EVENT_DEBUG.*"))
                {
                    isIfDefStarted = true;
                }
               
                boolean isLongEventStatement = line.matches("^\\s*event_log.*,.*;.*");
                String indentationStr ="";
               
                if( isLongEventStatement )
                {
                    indentationStr = line.substring(0, line.indexOf("event_log") );
                }
               
                if( isIfDefStarted )
                {
                    /*
                     * 이미 #ifdef EVENT_DEBUG 로 시작된 경우에는
                     * AddPreStatement 모드인 경우는 그대로 출력하고
                     * 만약 AddPreStatement 모드가 아닌 경우, 즉
                     * #ifdef 없이  단순히 EventLog를 삭제하는 경우는
                     * #ifdef 가 정의된 부분을 함께 삭제하도록 한다.
                     */
                    if( isAddPreStatement )   
                    {                       
                        bw.write(line + NEWLINE);
                    } else {                       
                        if( isLongEventStatement )
                        {
                            if(isRecoveryMode)
                                bw.write( line + NEWLINE);
                            else
                                bw.write( line.replaceFirst(replaceRegExp,replaceRegExp2) + NEWLINE);
                           
                            replaced ++;
                        }
                    }                   
                } else {  /* IfDef 블럭이 아닌 경우 */
                   
                    if( isLongEventStatement )
                    {
                        if( isAddPreStatement )
                        {
                            if(isApplyIndentation) bw.write(indentationStr);
                            bw.write("#ifdef EVENT_DEBUG" + NEWLINE);
                            bw.    write(line + NEWLINE);
                           
                            if(isApplyIndentation) bw.write(indentationStr);
                            bw.write("#else" + NEWLINE);
                            bw.write( line.replaceFirst(replaceRegExp,replaceRegExp2) + NEWLINE);
                           
                            if(isApplyIndentation) bw.write(indentationStr);
                            bw.write("#endif" + NEWLINE);
                            replaced++;
                        } else {
                            if( isRecoveryMode )
                            {
                                bw.write(line + NEWLINE);
                            }else{
                                bw.write( line.replaceFirst(replaceRegExp,replaceRegExp2) + NEWLINE);
                                replaced++;
                            }
                        }
                    } else {
                        bw.write(line + NEWLINE);
                    }                   
                }
                               
                if( line.matches("^.*#endif.*"))
                {
                    isIfDefStarted = false;
                }
               
            }
           
            bw.close();
            br.close();
           
            if( replaced > 0 )
            {
           
                String destFileName = srcFile.getAbsolutePath();
                srcFile.delete();
               
                tempFile.renameTo(new File(destFileName));
           
            } else {
                tempFile.delete();               
            }
           
            if( isVerbose ) System.out.println( "  ..." + replaced + " replaced. Success");
           
           
           
        }catch(Exception e)
        {
            e.printStackTrace();
            failureFiles++;
            if( isVerbose ) System.out.println( "FAILED!!");
        }
       
        processedEvents += replaced;
    }

위의 코드에서 가장 문제가 많았던 부분이 바로

        String replaceRegExp = "(event_log\\s*\\(\\s*[a-zA-Z_0-9\\[\\]]+\\s*),.*";
        String replaceRegExp2 = "$1\\);";


이 부분입니다. 이벤트 메시지 부분을 제거하고 이벤트 아이디만을 남기로독 하는 부분인데, 이게 메시지 부분에 여러가지 변형사항이 있다보니 이상한 결과들을 내놓는 경우가 있었습니다.  위의 코드에서 replaceRegExp 는 검색을 하는 데 사용되고, replaceRegExp2는 그 결과를 이용해서 치환할 때 사용되는 식입니다. $1 는 replaceRegExp를 통해 검색된 내용 중 ,(comma)의 앞부분을 의미하게 됩니다.

만약 처리하는 파일에 다음과 같은 라인이 있다고 하면,

     event_log ( EVENT_01 , "Hello Event" );

이에 대한 처리 결과는

   event_log( EVENT_01 );

이 되도록 하는 것입니다.

그런데, Regular Expression을 잘못 쓰게 되면

   event_log( EVENT_02 , "Hello, Sir");



   event_log( EVENT_02, "Hello );

와 같은 현상이 나타나기도 했습니다.

몇 번의 수정을 통해 위와 같은 Regular Expression을 쓰게 되었고, 다행히 지금까지는 별다른 에러 케이스를 찾지 못했습니다. ^^

                if( isIfDefStarted )
                {
                    /*
                     * 이미 #ifdef EVENT_DEBUG 로 시작된 경우에는
                     * AddPreStatement 모드인 경우는 그대로 출력하고
                     * 만약 AddPreStatement 모드가 아닌 경우, 즉
                     * #ifdef 없이  단순히 EventLog를 삭제하는 경우는
                     * #ifdef 가 정의된 부분을 함께 삭제하도록 한다.
                     */
                    if( isAddPreStatement )   
                    {                       
                        bw.write(line + NEWLINE);
                    } else {                       
                        if( isLongEventStatement )
                        {
                            if(isRecoveryMode)
                                bw.write( line + NEWLINE);
                            else
                                bw.write( line.replaceFirst(replaceRegExp,replaceRegExp2) + NEWLINE);
                           
                            replaced ++;
                        }
                    }                   
                }

이 부분은 #ifdef EVENT_DEBUG  블럭 안쪽일 경우의 처리를 나타냅니다. 만약 -a 모드인 경우는 있는 그대로 표현하면 됩니다. 어차피 하고자 하는 일이 #ifdef ~ #else ~ #endif 를 추가하는 것이기 때문에 이미 있는 부분은 그대로 유지하고자 하는 것입니다. 만약 -a 모드가 아니라면 기본적으로는 해당 부분을 삭제하게 됩니다.  다만 이벤트 메시지를 포함한 부분인 경우에 대해서만 추가적으로 처리하게 되는데, -r 모드인 경우는 이벤트 메시지를 포함한 전체 문장으로, -d 모드인 경우는 이벤트 메시지가 삭제된 형태로 출력하는 것입니다.


                } else {  /* IfDef 블럭이 아닌 경우 */
                   
                    if( isLongEventStatement )
                    {
                        if( isAddPreStatement )
                        {
                            if(isApplyIndentation) bw.write(indentationStr);
                            bw.write("#ifdef EVENT_DEBUG" + NEWLINE);
                            bw.write(line + NEWLINE);
                           
                            if(isApplyIndentation) bw.write(indentationStr);
                            bw.write("#else" + NEWLINE);
                            bw.write( line.replaceFirst(replaceRegExp,replaceRegExp2) + NEWLINE);
                           
                            if(isApplyIndentation) bw.write(indentationStr);
                            bw.write("#endif" + NEWLINE);
                            replaced++;
                        } else {
                            if( isRecoveryMode )
                            {
                                bw.write(line + NEWLINE);
                            }else{
                                bw.write( line.replaceFirst(replaceRegExp,replaceRegExp2) + NEWLINE);
                                replaced++;
                            }
                        }
                    } else {
                        bw.write(line + NEWLINE);
                    }                   
                }


#ifdef EVENT_DEBUG 블럭이 아닌 경우에는 이벤트 메시지를 포함하는 문장이 나오는 경우에 대해서만 추가 처리를 해주면 됩니다. -a 모드라면 #ifdef~#else~#endif 를 적용하고, -r 모드라면 원본 문장 그대로, -d 모드의 경우에는 이벤트 메시지를 삭제한 형태가 출력됩니다.

설명하고 나니 무척이나 간단합니다. 이처럼 간단한 프로그램에서 왜 그리 실수가 많았는지 모르겠네요 ^^

소스 코드에 대한 조언은 언제든지 환영입니다. 오히려 시간 내어 봐주시는 분들께 제가 더 큰 감사를 드려야 겠지요. (근데, 여기 오셔서 보시는 분들이 몇분이나 될 지는 의문입니다 ^^)

좋은 하루 되세요.

0 Trackback, 1 Comment

TRACKBACK :: http://naratalk.com/trackback/271 관련글 쓰기

댓글을 달아 주세요

  1. BlogIcon Shinnara  댓글주소  수정/삭제  댓글쓰기

    패턴 검색 부분을 아래와 같이 변경하였습니다.
    그동안 참 엉뚱한 짓을 했군요. ^^

    String replaceRegExp = "(event_log[^,]+),.*";

    2008/12/15 11:12

Greedy 와 UnGreedy

Computer/Programming/Perl 2008/12/13 01:00 by Shinnara

Regular Expression에서의 Greedy 와 Ungreedy 에 대한 유용한 링크 하나.

Papyrus's 문자열 패턴

앞서 올린 글 Regular Expression 을 실제 작업에 이용하기 에서 팀 내에 배포했다고 한 툴의 사소한 버그 중에 regexp의 greedy 속성에 기인하는 것이었다. 예를 들어

event_log( HELLO_EVENT, "Hi, Sir");

이라는 문장에 대해 앞의 패턴 즉, ^\s*(event_log.*),.*;$ 을 적용하게 되면 $1 의 값은 아래와 같은 값이 나오게 된다.

event_log( HELLO_EVENT, "Hi,

결과적으로

print "$1);\n";


의 수행 결과는

event_log( HELLO_EVENT);

가 아닌

event_log( HELLO_EVENT, "Hi);


가 되게 되는 문제점이 있었다.

실제 문제 해결은 다른 방법을 써서 하였지만, 좋은 정보라서 소개하고자 한다.


0 Trackback, 0 Comment

TRACKBACK :: http://naratalk.com/trackback/270 관련글 쓰기

댓글을 달아 주세요


 요즘 간혹 올리는 글들이 대체로는 Regular Expression(정규 표현식)에 대한 것들이네요. C 코드 분석이나 Perl 이야기나 모두.. 몇번에 걸쳐 올리던 C 코드 분석은 현재로서는 잠정 중단입니다. 대신에 회사 업무 도중 Regexp 를 사용할 수 있는 좋은 기회가 생겼지요.

 아시다시피 제가 속한 부서는 임베디드 소프트웨어를 만들고 있습니다. C 를 이용해서 프로그램을 만들지요. 비슷한 기능들을 모아 CSC라 분류하고 각 개발자는 몇개의 CSC를 맡아서 개발 및 테스트를 진행합니다. 보통 CSC는 디렉토리별로 나뉘게 되고, 이 디렉토리 아래에 .c 파일이 위치하게 되는 형태이지요.

 프로그램을 작성하다보면 소프트웨어의 작동시 발생되는 여러 이벤트들을 외부에 알려야 하는 경우가 생깁니다. 이를 위해 event_log 라는 함수를 사용하게 되는데요, event_log 함수는 다음과 같이 사용됩니다.

event_log( EVENT_ID , "detail desc");

 개발 과정에서는 뒤의 detail description을 이용해서 보다 알기 쉽게 이벤트의 내용을 표시해주게 됩니다. 하지만 정식 릴리즈가 가까워지면 수행 시간이나 이미지 크기 등의 문제로 인해, 뒤의 "detail desc"를 삭제해 주어야 합니다. 즉 아래와 같은 형태로 바꾸어야 하지요.

event_log( EVENT_ID );

 여기서 문제가 발생합니다. event_log 함수가 전체 프로그램 내에서 무척이나 많이 사용되고 있기 때문에 "detail desc"을 삭제하는 일이 만만치 않은 작업이 되는 것이죠. 또한 정식 릴리즈 버전이 아니라 테스트를 위해서는 자세한 이벤트의 내용을 알기를 원하기 때문에 아래와 같은 형태로 변경하기로 하였습니다.

#ifdef EVENT_DEBUG
event_log( EVENT_ID, "detail desc");
#else
event_log( EVENT_ID);
#endif

즉, 컴파일 시점에서 테스트용 이미지와 정식 빌드용 이미지를 EVENT_DEBUG를 이용해서 분리해내고자 하는 것입니다. 이러한 기법은 C/C++에서는 너무도 많이 쓰이는 방법입니다.

 소스 코드 전체에 대해서 단순히 뒤의 자세한 설명만 없애는 것을 예상했을 때는 UltraEdit, AcroEdit 등 개발용 텍스트 에디터등을 이용해 정규 표현식으로 치환하려고 했습니다. 하지만 새롭게 제안된 내용은 단순한 치환으로는 안되더군요. 해당 에디터 들에서 줄바꿈을 만들어 내기가 어려웠습니다. 물론 매크로등을 이용하면 되긴 했지만, 뭔가 찜찜한 기분에 아예 변환 도구를 만들자고 생각했습니다. 

 어떤 언어로 만들까 잠시 고민을 해보았습니다. 최근에 관심을 가지고 있는 Perl을 이용해서 간단히 작업을 해보았는데 꽤나 쉽게 처리할 수 있었습니다. 이 글을 작성하는 곳이 회사가 아니라 집이다보니 해당 소스를 완벽하게 첨부를 하지는 못하지만, 대략 아래와 같은 형태입니다.

 foreach  $aLine (<fileHandle> )
 {   
   
   if( $aLine =~ /^\s*(event_log.*),.*;$/ ) {
       print "#ifdef EVENT_DEBUG\n";
       print "$aLine\n";
       print "#else\n";
       print "$1);\n";
       print "#endif\n";
    } else {
       print "$aLine";
    }
 }
 close( fileHandle );

 앞서 소개했던 Perl을 이용한 C 소스 코드 분석 에 나온 코드 형태와 유사합니다.  일단 주어진 하나의 파일에 대해 처리하는 것은 어렵지 않더군요. 하지만 코드를 작성하다보니 점점 하고 싶어지는 게 많아집니다. #ifdef 을 붙였다가 다시 떼고 싶을 땐 어떻게 하지? 이렇게 했다가 다시 이벤트 아이디만 표시하는 깔끔한 (?) 코드로 변경하고자 한다면? 디렉토리를 입력으로 주면 하위 디렉토리에 있는 모든 .c 파일에 대해서 같은 처리를 하면 편리하지 않을까? 등등등...

 그러다 보니 아직 서툰 Perl로 작성하기에는 어려움이 많더군요. 손에 익숙치 않다보니.. 그래서 일단 Java로 짜기로 했습니다. Perl이야 말로 정규 표현식을 이용한 문자열 처리의 최고봉이긴 하지만, Java도 정규 표현식을 지원하니 비슷한 형태가 가능합니다.

오늘 회사에서 관련된 툴을 작성하여 팀 내에 배포를 하였는데, 자잘한 버그들이 존재하는 바람에 두번이나 더 배포를 해야 했습니다. 아직 한번 더 배포할 것이 남아있기도 하구요. 일단 원하는 기능을 잘 동작하는 것 같습니다. 자세한 소스는 다음에 올리기로 하고, 앞으로는 오늘 작성한 소스에 대한 공개적인 리팩토링 및 이를 Perl 등의 다른 언어로 표현하는 것에 대해서 다루어볼까 합니다. Perl을 배우는 좋은 기회가 될 것 같기도 하구요.

모두 좋은 밤, 그리고 즐거운 주말 되세요.

p.s. 펄 관련 유용한 사이트 링크 하나..
http://gypark.pe.kr/wiki/Perl/%EC%A0%95%EA%B7%9C%ED%91%9C%ED%98%84%EC%8B%9D

1 Trackback, 0 Comment

TRACKBACK :: http://naratalk.com/trackback/269 관련글 쓰기

  1. Subject: Regular Expression 을 실제 작업에 이용하기 (2)

    Tracked from Talking with Shinnara :: NaraTalk.com  삭제

    Regular Expression을 실제 작업에 이용하기에 이은 두번째 글입니다. 이번 글에서는 지난 글에서 소개하지 못했던 자바 소스에 대해서 간략히 설명을 할까 합니다. 그리고는 고수님들의 조언을 받아서 리팩토링도 하고, 또 다른 언어로 바꾸어볼까도 생각합니다. 지난 글에서 밝혔듯이 처음에 작성하고 섣불리 팀내에 배포했다가 몇가지 패턴을 인식못하고 또 잘못 바꾸어주는 덕에 테스트의 중요성을 실감한 사건이기도 했습니다. 정말이지 테스트는 무지 중요..

    2008/12/15 10:03

댓글을 달아 주세요

1 
다...... (264)
Computer/Programming (106)
Links (14)
책 읽는 즐거움 (7)
끄적임 (66)
즐거운 과학 나라 (7)
일본 (5)
Study (4)