<menu id="ycqsw"></menu><nav id="ycqsw"><code id="ycqsw"></code></nav>
<dd id="ycqsw"><menu id="ycqsw"></menu></dd>
  • <nav id="ycqsw"></nav>
    <menu id="ycqsw"><strong id="ycqsw"></strong></menu>
    <xmp id="ycqsw"><nav id="ycqsw"></nav>
  • python3正則表達式詳解(python中的正則表達式用法)


    登陸天善社區查看更多系列:

    Python3中BeautifulSoup的使用方法

    Python3中PyQuery的使用方法

    Python3中Selenium使用方法

    正則表達式

    本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

    當然對于爬蟲來說,有了它,我們從HTML里面提取我們想要的信息就非常方便了。

    實例引入

    說了這么多,可能我們對它到底是個什么還是比較模糊,下面我們就用幾個實例來感受一下正則表達式的用法。

    我們打開開源中國提供的正則表達式測試工具
    http://tool.oschina.net/regex/,打開之后我們可以輸入待匹配的文本,然后選擇常用的正則表達式,就可以從我們輸入的文本中得出相應的匹配結果了。

    例如我們在這里輸入待匹配的文本如下:

    Python3中正則表達式使用方法

    這段字符串中包含了一個電話號碼和一個電子郵件,接下來我們就嘗試用正則表達式提取出來。

    我們在網頁中選擇匹配Email地址,就可以看到在下方出現了文本中的Email。如果我們選擇了匹配網址URL,就可以看到在下方出現了文本中的URL。是不是非常神奇?

    其實,在這里就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然后是一個@符號,然后就是某個域名,這是有特定的組成格式的。另外對于URL,開頭是協議類型,然后是冒號加雙斜線,然后是域名加路徑。

    對于URL來說,我們就可以用下面的正則表達式匹配:

    Python3中正則表達式使用方法

    如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似URL的文本,那就會被提取出來。

    這個正則表達式看上去是亂糟糟的一團,其實不然,這里面都是有特定的語法規則的。比如a-z代表匹配任意的小寫字母,s表示匹配任意的空白字符,*就代表匹配前面的字符任意多個,這一長串的正則表達式就是這么多匹配規則的組合,最后實現特定的匹配功能。

    寫好正則表達式后,我們就可以拿它去一個長字符串里匹配查找了,不論這個字符串里面有什么,只要符合我們寫的規則,統統可以找出來。那么對于網頁來說,如果我們想找出網頁源代碼里有多少URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的URL了。

    在上面我們說了幾個匹配規則,那么正則表達式的規則到底有多少?那么在這里把常用的匹配規則總結一下:

    模式描述

    w匹配字母數字及下劃線

    W匹配非字母數字及下劃線

    s匹配任意空白字符,等價于 [tnrf].

    S匹配任意非空字符

    d匹配任意數字,等價于 [0-9]

    D匹配任意非數字

    A匹配字符串開始

    Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串

    z匹配字符串結束

    G匹配最后匹配完成的位置

    n匹配一個換行符

    t匹配一個制表符

    ^匹配字符串的開頭

    $匹配字符串的末尾。

    .匹配任意字符,除了換行符,當re.DOTALL標記被指定時,則可以匹配包括換行符的任意字符。

    […]用來表示一組字符,單獨列出:[amk] 匹配 ‘a’,’m’或’k’

    [^…]不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。

    *匹配0個或多個的表達式。

    +匹配1個或多個的表達式。

    ?匹配0個或1個由前面的正則表達式定義的片段,非貪婪方式

    {n}精確匹配n個前面表達式。

    {n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式

    a|b匹配a或b

    ( )匹配括號內的表達式,也表示一個組

    可能完了之后就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎么用它來從網頁中提取我們想要的信息。

    Python中使用

    其實正則表達式不是Python獨有的,它在其他編程語言中也可以使用,但是Python的re庫提供了整個正則表達式的實現,利用re庫我們就可以在Python中使用正則表達式來,在Python中寫正則表達式幾乎都是用的這個庫。

    下面我們就來了解下它的用法。

    match()

    在這里首先介紹第一個常用的匹配方法,match()方法,我們向這個方法傳入要匹配的字符串以及正則表達式,就可以來檢測這個正則表達式是否匹配字符串了。

    match()方法會嘗試從字符串的起始位置匹配正則表達式,如果匹配,就返回匹配成功的結果,如果不匹配,那就返回None。

    我們用一個實例來感受一下:

    Python3中正則表達式使用方法

    在這里我們首先聲明了一個字符串,包含英文字母、空白字符、數字等等內容,接下來我們寫了一個正則表達式^Hellosdddsd{4}sw{10}來匹配這個長字符串。

    開頭的^是匹配字符串的開頭,也就是以Hello開頭,然后s匹配空白字符,用來匹配目標字符串的空格,d匹配數字,三個d匹配123,然后再寫一個s匹配空格,后面還有4567,我們其實可以依然用四個d來匹配,但是這么寫起來比較繁瑣,所以在后面可以跟{4}代表匹配前面的字符四次,也就是匹配四個數字,這樣也可以完成匹配,然后后面再緊接一個空白字符,然后w{10}匹配10個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實并沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

    我們調用match()方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

    打印輸出一下結果,可以看到結果是SRE_Match對象,證明成功匹配,它有兩個方法,group()方法可以輸出匹配到的內容,結果是Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span()方法可以輸出匹配的范圍,結果是(0, 25),這個就是匹配到的結果字符串在原字符串中的位置范圍。

    通過上面的例子我們可以基本了解怎樣在Python中怎樣使用正則表達式來匹配一段文字。

    匹配目標

    剛才我們用了match()方法可以得到匹配到的字符串內容,但是如果我們想從字符串中提取一部分內容怎么辦呢?就像最前面的實例一樣,從一段文本中提取出郵件或電話號等內容。

    在這里可以使用()括號來將我們想提取的子字符串括起來,()實際上就是標記了一個子表達式的開始和結束位置,被標記的每個子表達式會依次對應每一個分組,我們可以調用group()方法傳入分組的索引即可獲取提取的結果。

    下面我們用一個實例感受一下:

    Python3中正則表達式使用方法

    依然是前面的字符串,在這里我們想匹配這個字符串并且把其中的1234567提取出來,在這里我們將數字部分的正則表達式用()括起來,然后接下來調用了group(1)獲取匹配結果。

    運行結果如下:

    Python3中正則表達式使用方法

    可以看到在結果中成功得到了1234567,我們獲取用的是group(1),與group()有所不同,group()會輸出完整的匹配結果,而group(1)會輸出第一個被()包圍的匹配結果,假如正則表達式后面還有()包括的內容,那么我們可以依次用group(2)、group(3)等來依次獲取。

    通用匹配

    剛才我們寫的正則表達式其實比較復雜,出現空白字符我們就寫s匹配空白字符,出現數字我們就寫d匹配數字,工作量非常大,其實完全沒必要這么做,還有一個萬能匹配可以用,也就是.*,.可以匹配任意字符(除換行符),*又代表匹配前面的字符無限次,所以它們組合在一起就可以匹配任意的字符了,有了它我們就不用挨個字符地匹配了。

    所以接著上面的例子,我們可以改寫一下正則表達式。

    Python3中正則表達式使用方法

    在這里我們將中間的部分直接省略,全部用.*來代替,最后加一個結尾字符串就好了,運行結果如下:

    Python3中正則表達式使用方法

    可以看到group()方法輸出了匹配的全部字符串,也就是說我們寫的正則表達式匹配到了目標字符串的全部內容,span()方法輸出(0, 41),是整個字符串的長度。

    因此,我們可以在使用.*來簡化正則表達式的書寫。

    貪婪匹配與非貪婪匹配

    在使用上面的通用匹配.*的時候可能我們有時候匹配到的并不是想要的結果,我們看下面的例子:

    Python3中正則表達式使用方法

    在這里我們依然是想獲取中間的數字,所以中間我們依然寫的是(d+),數字兩側由于內容比較雜亂,所以兩側我們想省略來寫,都寫.*,最后組成^He.*(d+).*Demo$,看樣子并沒有什么問題,我們看下運行結果:

    Python3中正則表達式使用方法

    奇怪的事情發生了,我們只得到了7這個數字,這是怎么回事?

    這里就涉及一個貪婪匹配與非貪婪匹配的原因了,貪婪匹配下,.*會匹配盡可能多的字符,我們的正則表達式中.*后面是d+,也就是至少一個數字,并沒有指定具體多少個數字,所以.*就盡可能匹配多的字符,所以它把123456也匹配了,給d+留下一個可滿足條件的數字7,所以d+得到的內容就只有數字7了。

    但這樣很明顯會給我們的匹配帶來很大的不便,有時候匹配結果會莫名其妙少了一部分內容。其實這里我們只需要使用非貪婪匹配匹配就好了,非貪婪匹配的寫法是.*?,多了一個?,那么它可以達到怎樣的效果?我們再用一個實例感受一下:

    Python3中正則表達式使用方法

    在這里我們只是將第一個.*改成了.*?,轉變為非貪婪匹配匹配。結果如下:

    Python3中正則表達式使用方法

    很好,這下我們就可以成功獲取1234567了。原因可想而知,貪婪匹配是盡可能匹配多的字符,非貪婪匹配就是盡可能匹配少的字符,.*?之后是d+用來匹配數字,當.*?匹配到Hello后面的空白字符的時候,再往后的字符就是數字了,而d+恰好可以匹配,那么這里.*?就不再進行匹配,交給d+去匹配后面的數字。所以這樣,.*?匹配了盡可能少的字符,d+的結果就是1234567了。

    所以說,在做匹配的時候,字符串中間我們可以盡量使用非貪婪匹配來匹配,也就是用.*?來代替.*,以免出現匹配結果缺失的情況。

    但這里注意,如果匹配的結果在字符串結尾,.*?就有可能匹配不到任何內容了,因為它會匹配盡可能少的字符,例如:

    Python3中正則表達式使用方法
    Python3中正則表達式使用方法

    觀察到.*?沒有匹配到任何結果,而.*則盡量匹配多的內容,成功得到了匹配結果。

    所以在這里好好體會一下貪婪匹配和非貪婪匹配的原理,對后面寫正則表達式非常有幫助。

    修飾符

    正則表達式可以包含一些可選標志修飾符來控制匹配的模式。修飾符被指定為一個可選的標志。

    我們用一個實例先來感受一下:

    Python3中正則表達式使用方法

    和上面的例子相仿,我們在字符串中加了個換行符,正則表達式也是一樣的來匹配其中的數字,看一下運行結果:

    Python3中正則表達式使用方法

    運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為None,而我們又調用了group()方法所以導致AttributeError。

    那我們加了一個換行符為什么就匹配不到了呢?是因為.匹配的是除換行符之外的任意字符,當遇到換行符時,.*?就不能匹配了,所以導致匹配失敗。

    那么在這里我們只需要加一個修飾符re.S,即可修正這個錯誤。

    Python3中正則表達式使用方法

    在match()方法的第三個參數傳入re.S,它的作用是使.匹配包括換行符在內的所有字符。

    運行結果:

    1234567

    這個re.S在網頁匹配中會經常用到,因為HTML節點經常會有換行,加上它我們就可以匹配節點與節點之間的換行了。

    另外還有一些修飾符,在必要的情況下也可以使用:

    修飾符描述

    re.I使匹配對大小寫不敏感

    re.L做本地化識別(locale-aware)匹配

    re.M多行匹配,影響 ^ 和 $

    re.S使 . 匹配包括換行在內的所有字符

    re.U根據Unicode字符集解析字符。這個標志影響 w, W, b, B.

    re.X該標志通過給予你更靈活的格式以便你將正則表達式寫得更易于理解。

    在網頁匹配中較為常用的為re.S、re.I。

    轉義匹配

    我們知道正則表達式定義了許多匹配模式,如.匹配除換行符以外的任意字符,但是如果目標字符串里面它就包含.我們改怎么匹配?

    那么這里就需要用到轉義匹配了,我們用一個實例來感受一下:

    Python3中正則表達式使用方法

    當遇到用于正則匹配模式的特殊字符時,我們在前面加反斜線來轉義一下就可以匹配了。例如.我們就可以用.來匹配,運行結果:

    Python3中正則表達式使用方法

    可以看到成功匹配到了原字符串。

    以上是寫正則表達式常用的幾個知識點,熟練掌握上面的知識點對后面我們寫正則表達式匹配非常有幫助。

    search()

    我們在前面提到過match()方法是從字符串的開頭開始匹配,一旦開頭不匹配,那么整個匹配就失敗了。

    我們看下面的例子:

    Python3中正則表達式使用方法

    在這里我們有一個字符串,它是以Extra開頭的,但是正則表達式我們是以Hello開頭的,整個正則表達式是字符串的一部分,但是這樣匹配是失敗的,也就是說只要第一個字符不匹配整個匹配就不能成功,運行結果如下:

    None

    所以match()方法在我們在使用的時候需要考慮到開頭的內容,所以在做匹配的時候并不那么方便,它適合來檢測某個字符串是否符合某個正則表達式的規則。

    所以在這里就有另外一個方法search(),它在匹配時會掃描整個字符串,然后返回第一個成功匹配的結果,也就是說,正則表達式可以是字符串的一部分,在匹配時,search()方法會依次掃描字符串,直到找到第一個符合規則的字符串,然后返回匹配內容,如果搜索完了還沒有找到,那就返回None。

    我們把上面的代碼中的match()方法修改成search(),再看下運行結果:

    Python3中正則表達式使用方法

    這樣就得到了匹配結果。

    所以說,為了匹配方便,我們可以盡量使用search()方法。

    下面我們再用幾個實例來感受一下search()方法的用法。

    首先這里有一段待匹配的HTML文本,我們接下來寫幾個正則表達式實例來實現相應信息的提取。

    Python3中正則表達式使用方法

    觀察到<ul>節點里面有許多<li>節點,其中<li>節點有的包含<a>節點,有的不包含<a>節點,<a>節點還有一些相應的屬性,超鏈接和歌手名。

    首先我們嘗試提取class為active的<li>節點內部的超鏈接包含的歌手名和歌名。

    所以我們需要提取第三個<li>節點下的<a>節點的singer屬性和文本。

    所以正則表達式可以以<li>開頭,然后接下來尋找一個標志符active,中間的部分可以用.*?來匹配,然后接下來我們要提取singer這個屬性值,所以還需要寫入singer="(.*?)",我們需要提取的部分用小括號括起來,以便于用group()方法提取出來,它的兩側邊界是雙引號,然后接下來還需要匹配<a>節點的文本,那么它的左邊界是>,右邊界是</a>,所以我們指定一下左右邊界,然后目標內容依然用(.*?)來匹配,所以最后的正則表達式就變成了<li.*?active.*?singer="(.*?)">(.*?)</a>',然后我們再調用search()方法,它便會搜索整個HTML文本,找到符合正則表達式的第一個內容返回。

    另外由于代碼有換行,所以這里第三個參數需要傳入re.S

    所以整個匹配代碼如下:

    Python3中正則表達式使用方法

    由于我們需要獲取的歌手和歌名都已經用了小括號包圍,所以可以用group()方法獲取,序號依次對應group()的參數。

    運行結果:

    Python3中正則表達式使用方法

    可以看到這個正是我們想提取的class為active的<li>節點內部的超鏈接包含的歌手名和歌名。

    那么正則表達式不加active會怎樣呢?也就是匹配不帶class為active的節點內容,我們將正則表達式中的active去掉,代碼改寫如下:

    Python3中正則表達式使用方法

    由于search()方法會返回第一個符合條件的匹配目標,那在這里結果就變了。

    運行結果如下:

    Python3中正則表達式使用方法

    因為我們把active標簽去掉之后,從字符串開頭開始搜索,符合條件的節點就變成了第二個<li>節點,后面的就不再進行匹配,所以運行結果自然就變成了第二個<li>節點中的內容。

    注意在上面兩次匹配中,search()方法的第三個參數我們都加了re.S,使得.*?可以匹配換行,所以含有換行的<li>節點被匹配到了,如果我們將其去掉,結果會是什么?

    Python3中正則表達式使用方法

    運行結果:

    Python3中正則表達式使用方法

    可以看到結果就變成了第四個<li>節點的內容,這是因為第二個和第三個<li>標簽都包含了換行符,去掉re.S之后,.*?已經不能匹配換行符,所以正則表達式不會匹配到第二個和第三個<li>節點,而第四個<li>節點中不包含換行符,所以成功匹配。

    由于絕大部分的HTML文本都包含了換行符,所以通過上面的例子,我們盡量都需要加上re.S修飾符,以免出現匹配不到的問題。

    findall()

    在前面我們說了search()方法的用法,它可以返回匹配正則表達式的第一個內容,但是如果我們想要獲取匹配正則表達式的所有內容的話怎么辦?這時就需要借助于findall()方法了。

    findall()方法會搜索整個字符串然后返回匹配正則表達式的所有內容。

    還是上面的HTML文本,如果我們想獲取所有<a>節點的超鏈接、歌手和歌名,就可以將search()方法換成findall()方法。如果有返回結果的話就是list類型,所以我們需要遍歷一下list來獲依次獲取每組內容。

    Python3中正則表達式使用方法
    Python3中正則表達式使用方法

    可以看到,返回的list的每個元素都是tuple類型,我們用對應的索引依次取出即可。

    所以,如果只是獲取第一個內容,可以用search()方法,當需要提取多個內容時,就可以用findall()方法。

    sub()

    正則表達式除了提取信息,我們有時候還需要借助于它來修改文本,比如我們想要把一串文本中的所有數字都去掉,如果我們只用字符串的replace()方法那就太繁瑣了,在這里我們就可以借助于sub()方法。

    我們用一個實例來感受一下:

    Python3中正則表達式使用方法
    Python3中正則表達式使用方法

    在這里我們只需要在第一個參數傳入d+來匹配所有的數字,然后第二個參數是替換成的字符串,要去掉的話就可以賦值為空,第三個參數就是原字符串。

    得到的結果就是替換修改之后的內容。

    那么在上面的HTML文本中,如果我們想正則獲取所有<li>節點的歌名,如果直接用正則表達式來提取可能比較繁瑣,比如可以寫成這樣子:

    Python3中正則表達式使用方法
    Python3中正則表達式使用方法

    但如果我們借助于sub()函數就比較簡單了,我們可以先用sub()函數將<a>節點去掉,只留下文本,然后再利用findall()提取就好了。

    Python3中正則表達式使用方法
    Python3中正則表達式使用方法

    可以到<a>標簽在經過sub()函數處理后都沒有了,然后再findall()直接提取即可。所以在適當的時候我們可以借助于sub()方法做一些相應處理可以事半功倍。

    compile()

    前面我們所講的方法都是用來處理字符串的方法,最后再介紹一個compile()方法,這個方法可以講正則字符串編譯成正則表達式對象,以便于在后面的匹配中復用。

    Python3中正則表達式使用方法

    例如這里有三個日期,我們想分別將三個日期中的時間去掉,所以在這里我們可以借助于sub()方法,sub()方法的第一個參數是正則表達式,但是這里我們沒有必要重復寫三個同樣的正則表達式,所以可以借助于compile()函數將正則表達式編譯成一個正則表達式對象,以便復用。

    運行結果:

    Python3中正則表達式使用方法

    另外compile()還可以傳入修飾符,例如re.S等修飾符,這樣在search()、findall()等方法中就不需要額外傳了。所以compile()方法可以說是給正則表達式做了一層封裝,以便于我們更好地復用。

    到此為止,正則表達式的基本用法就介紹完畢了,后面我們會有實戰來講解正則表達式的使用。

    版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。

    發表評論

    登錄后才能評論
    国产精品区一区二区免费