深入正则表达式原理 1

会玩就好 · 发表于 2011-6-21 09:17

深入正则表达式原理
      最近很多同学都找到了工作，给我的压力很大，我不知道，我怎样才能突破自己，找到自己期待已久的工作，可能是我没有找到突破口，没有找到自己心中最想工作，想干一番大事业的那种冲动，或许是对学生时代的眷恋，或许是对自己的不自信，或许是对于现实的恐惧，我总是一次的在现实中来妥协自己，欺骗自己，以希望能留住我心中一直在呼叫的那种声音，挽留住最后能给自己净化心灵的那最后的一片热土。矿大啊，矿大，既让我爱又让我恨的校园。。。。。。

      废话也不多说，就来聊聊我这几天学的一些正则表达式的内容(化了几乎一周的时间终于看懂了大部分的内容)，只是为了以后查看，能给自己一个印记。



一  、先说正则表达式(regular expression)的基础语法：元字符(metacharacters)和常用的正则表达式

            1. 点号：. 匹配单个任意的字符(包括空格，换行符，回车符，制表符，换页符)。

            2.  字符组 [  ] 匹配单个字符。如[abdcedf]也就是匹配[]中的任一个字符都能成功：匹配a成功匹配b也能成功，但不能匹配k这样没有在[]中出现的字符。

            3.  排除型字符组  [^ ]  排除括号内列出的字符如[^abcd]匹配e能够成功，匹配a就失败

            4. 转义字符 \  通常是把元字符转化成普通的字符通常用于转换如：在匹配.号时，正常情况下正则表达式引擎(会在后面谈到)会把.当做元字符来处理，但是加上\就可以把\.中的点号当做一个普通的字符来处理。

            5. 问号  ？匹配一个或没有的字符

            6. 星号 * 匹配多个或没有的字符

            7. 加号 +  至少匹配一个字符或多个

            8.  区间词{min，max} 匹配至少min次，和至多max次

            9. ^       匹配一行的开头

            10.  $    匹配一行的结尾

            11. \b       匹配单词的分界符

               12. {?=} 肯定顺序环视

               13.  {?!} 否定顺序环视

               14.  {?<=} 肯定逆向环视

               15. {?<!}  否定逆向环视

                  16.  {?:} 非捕获分组

                  17. {?>} 固化分组

二、下面的正则表达式针对各种语言又有一些的变化：

                     1.  \d 匹配任意的数字

                     2.  \D 匹配任意的非数字

                     3.  \w 匹配任意的小写字母，大写字母和数字和下划线_等于[a-zA-Z0-9_]

                     4.  \W 匹配任意的非字母等于[^\s]

                        5.  \s  匹配空字符如空格符，制表符，等

                        6.  \S  匹配非空字符

                     7. \1\2 主要用于分组获得所分的组项，有时用的很方便哦。

            还有就是一些常用的匹配表达式：

                        1. \n 匹配换行符

                        2.  \A  匹配一行的开头与^一样的功能

三、上面的都是些简单的语法，我相信大多数都能懂，那我就讲一些难懂的内容吧：

   (1) .正则表达式的核心是正则表达式引擎处理方式。一般正则表达式引擎分为两种：NFA和DFA。

         但其中的NFA又有两个分支：传统的NFA和POSIX NFA 以下是各种语言所支持的引擎：

                     传统NFA：GNU Emacs、java、grep、less、more、.NET、Perl、PHP、Python、Ruby、sed等

                     DFA       ：awk、egrep、flex、MySQL、Procmail

                     POSIX NFA：mawk、Mortice Kern等等。

                     DFA/NFA混合引擎：GNU awk 、GNU grep/egrep、Tcl

   (2).  正则表达式真正起作用是由于这些引擎来计算匹配。所以要想弄懂正则表达式的内部机制，就必须要明白你所熟悉的语言(如java，.net用的都是传统的NFA)是采用的那种引擎。每一种语言都有这自己引擎，也就有自己的独特的规范和独特的匹配原则。所以正则表达式说采用的匹配结果也不一样。但不管是DFA还是NFA他们又有一些共性原则如：

               1. 优先匹配最左端(最靠开头)的匹配结果。

               2.标准的匹配量词(*、+、？和{min，max})是匹配优先的。

   1* 先来说第一条：最左端匹配结果：

               如果你用：cat来匹配下面的一句话：

                        The dragging belly indicates that your cat is too fat.

               你本想匹配其中的cat，但是结果却不是，而是indicates中的cat。单词cat 是能够被匹配出来，但是indicates中的cat出现的更早，所以就先匹配成功了。对于java程序员来说，他只关心是否能匹配而不关心在哪匹配。再来一个例子：用：fat | cat | belly | your来匹配字符串上面的那一句话。结果会是什么呢？

               你认为会是最后的fat是吗？因为fat在 fat | cat | belly | your最前面，是吗？错：答案是belly，句中的belly，为什么呢？由于匹配是从句中的第一个字母T来一次匹配fat | cat | belly | your，中的所有选项，结果发现都不符合，就走到h来匹配，结果也不符合，就依次走下去，直到b字母，有一项符合，就是fat | cat | belly | your中的belly中的b，所以依次匹配发现成功了，所以就正确了。就不在向后面的单词匹配(这种结果只是在支持NFA的引擎中)。

      2*  再来说说第二条：标准量词(*、+等)是匹配优先(greedy 贪婪的意思)的。从英文单词中，我们就可以发现一些原理。其实的确就是这样。

               用\b\w+s\b 来匹配包含s的字符串，如regexes，整个是能够比配成功的，你或许会认为它是正则表达式\w+匹配到xe结束然后让s来匹配最后的regexes中的s，若你这样想，那就错了，其实\w+一次性的匹配到结束包括s在内都被它给匹配了，但后面有个s所以，她很不情愿的吐出一个s来，让后面的s来匹配。这样使得匹配成功。这个+是不是很greedy啊？像欧也妮~葛朗台是吗？O(∩_∩)O哈哈~，对了，就是，这条规则很重要，对于正则表达式的优化很重要。很多时候就是在这个基础上进行优化的。

      下面就再来比较一下DFA和NFA的区别。

      一般DFA速度较快，而NFA的控制能力较强。这两者各有千秋。

      NFA引擎是表达式主导(有点困了，还是下次再写吧，那先留个目录，有助于下次写的：下面主要是NFA的工作原理，不同regular Expression 的流派，然后就是正则表达式的优化和调校，再者就是正则表达式的书写和案例经典例子的回放，最后是写我最爱的Java语言的正则表达式的应用)

紫衿 · 发表于 2011-6-21 09:18

正则很强大，但配合一些例子会更好理解~！

爱车车 · 发表于 2011-6-21 09:18

一口气读完了，写的很流畅、思路清晰，继续发扬。

期待后面的罗列的内容

郁闷小男人 · 发表于 2011-6-21 09:18

嗯嗯。我有回顾了一次正则。

爱车车 · 发表于 2011-6-21 09:18

yoyo · 发表于 2011-8-18 13:38

要睡觉了呵呵

帐号		自动登录	找回密码
密码			成为会员