[20818] 2017-07-13_Python爬虫利器之BeautifulSoup的用法(一)

文档创建者:s7ckTeam
浏览次数:4
最后更新:2025-01-18
2017-07-13_Python爬虫利器之BeautifulSoup的用法(一) P y t h o n B e a u t i f u l   S o u p L e m o n S e c   2 0 1 7 - 0 7 - 1 3 # !   / u s r / b i n / e n v   p y t h o n #   - * -   c o d i n g : u t f - 8   - * - i m p o r t   r e q u e s t s i m p o r t   j s o n i m p o r t   s y s f r o m   b s 4   i m p o r t   B e a u t i f u l S o u p         #   b s 4   ' ' ' B e a u t i f u l   S o u p p y t h o n B e a u t i f u l   S o u p U n i c o d e u t f - 8 B e a u t i f u l   S o u p B e a u t i f u l   S o u p l x m l h t m l 6 l i b p y t h o n ' ' ' h t m l   =   " " " < h t m l > < h e a d > < t i t l e > T h e   D o r m o u s e ' s   s t o r y < / t i t l e > < / h e a d > < b o d y > < p   c l a s s = " t i t l e "   n a m e = " d r o m o u s e " > < b > T h e   D o r m o u s e ' s   s t o r y < / b > < / p > < p   c l a s s = " s t o r y " > O n c e   u p o n   a   t i m e   t h e r e   w e r e   t h r e e   l i t t l e   s i s t e r s ;   a n d   t h e i r   n a m e s   w e r e < a   h r e f = " h t t p : / / e x a m p l e . c o m / e l s i e "   c l a s s = " s i s t e r "   i d = " l i n k 1 " > < ! - -   E l s i e   - - > < / a > , < a   h r e f = " h t t p : / / e x a m p l e . c o m / l a c i e "   c l a s s = " s i s t e r "   i d = " l i n k 2 " > L a c i e < / a >   a n d < a   h r e f = " h t t p : / / e x a m p l e . c o m / t i l l i e "   c l a s s = " s i s t e r "   i d = " l i n k 3 " > T i l l i e < / a > ; a n d   t h e y   l i v e d   a t   t h e   b o t t o m   o f   a   w e l l . < / p > < p   c l a s s = " s t o r y " > . . . < / p > " " "     s o u p   =   B e a u t i f u l S o u p ( h t m l , " l x m l " )     # b e a u t i f u l s o u p         #         P y t h o n : B e a u t i f u l S o u p ( m a r k u p ,   h t m l . p a r s e r )         P y t h o n   2 . 7 . 3   o r   3 . 2 . 2 )   #         l x m l   H T M L   : B e a u t i f u l S o u p ( m a r k u p ,   l x m l )         C #         l x m l   X M L   : B e a u t i f u l S o u p ( m a r k u p ,   [ l x m l ,   x m l ] ) B e a u t i f u l S o u p ( m a r k u p ,   x m l )         C #         h t m l 5 l i b : B e a u t i f u l S o u p ( m a r k u p ,   h t m l 5 l i b )           # p r i n t   s o u p . p r e t t i f y ( )     # s o u p   b i a o q i a n   =   s o u p . t i t l e       # t a g     b i a o q i a n 1   =   s o u p . h e a d b i a o q i a n 2   =   s o u p . a b i a o q i a n 3   =   s o u p . p # B e a u t i f u l S o u p : #         T a g #         N a v i g a b l e S t r i n g
#         B e a u t i f u l S o u p #         C o m m e n t # T a g   H T M L p r i n t   b i a o q i a n             #   # p r i n t   b i a o q i a n 1 # p r i n t   b i a o q i a n 2 # p r i n t   b i a o q i a n 3   # r   =   s t r ( b i a o q i a n )             # p r i n t # r 1   =   s t r ( b i a o q i a n 1 ) # r 2   =   s t r ( b i a o q i a n 2 ) # r 3   =   s t r ( b i a o q i a n 3 ) # p r i n t   " s o u p . t i t l e : " + r               # # p r i n t   " s o u p . t i t l e : " + r 1 # p r i n t   " s o u p . t i t l e : " + r 2 # p r i n t   " s o u p . t i t l e : " + r 3 # # p r i n t   t y p e ( b i a o q i a n )             # b i a o q i a n   =   s o u p . t i t l e # p r i n t   t y p e ( b i a o q i a n 1 )           # b i a o q i a n 1   =   s o u p . h e a d # p r i n t   t y p e ( b i a o q i a n 2 )         # b i a o q i a n 2   =   s o u p . a # p r i n t   t y p e ( b i a o q i a n 3 )                 # b i a o q i a n 3   =   s o u p . p #   T a g   n a m e     a t t r s # n a m e # p r i n t   s o u p . n a m e # p r i n t   s o u p . h e a d . n a m e     # s o u p     n a m e     [ d o c u m e n t ] 便 # a t t r s                 b i a o q i a n 3 b i a o q i a n 3   =   s o u p . p # p r i n t   b i a o q i a n 3 . a t t r s     #   p     c l a s s   # p r i n t   b i a o q i a n 3 [ ' c l a s s ' ] #   g e t   # p r i n t   b i a o q i a n 3 . g e t ( ' c l a s s ' ) # # b i a o q i a n 3 [ ' c l a s s ' ] = " n e w C l a s s " # p r i n t   b i a o q i a n 3 # # d e l   b i a o q i a n 3 [ ' c l a s s ' ] # p r i n t   b i a o q i a n 3 #   N a v i g a b l e S t r i n g #   . s t r i n g   # p r i n t         b i a o q i a n 3 . s t r i n g # # p r i n t   t y p e ( b i a o q i a n 3 . s t r i n g )
# B e a u t i f u l S o u p # B e a u t i f u l S o u p   . ,   T a g     T a g # p r i n t   t y p e ( s o u p . n a m e ) # p r i n t   s o u p . n a m e # p r i n t   s o u p . a t t r s # C o m m e n t # C o m m e n t     N a v i g a b l e S t r i n g   # # p r i n t   s o u p . a # p r i n t   s o u p . a . s t r i n g # p r i n t   t y p e ( s o u p . a . s t r i n g )    
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则