[18766] 2018-05-19_python爬虫总结(一)

文档创建者:s7ckTeam
浏览次数:3
最后更新:2025-01-18
2018-05-19_python爬虫总结(一) p y t h o n (   c r h u a   h u a s e c   2 0 1 8 - 0 5 - 1 9 p y t h o n r e q u s t s , u r l l i b r e , B e a u t i f u l S o u p , P y Q u e r y s e l e n i u m   p y s p i d e r , s c r a p y         1 .         2 .         3 . a j a x         1 . U A           2 .           3 .           4 . 使 j s t o k e n           5 . I P           1 .           2 .           3 . 使 P l a n t o m J S R e q u e s t i m p o r t   r e q u e s t s h e a d e r s   =   {         ' U s e r - A g e n t '   :   ' M o z i l l a / 5 . 0   ( W i n d o w s   N T   1 0 . 0 ;   W i n 6 4 ;   x 6 4 ;   r v : 5 9 . 0 )   G e c k o / 2 0 1 0 0 1 0 1   F i r e f o x / 5 9 . 0 ' } p r o x i e s   =   {         ' h t t p ' : ' 1 1 3 . 1 0 9 . 1 6 2 . 8 5 : 8 0 8 ' } r e s   =   r e q u e s t s . g e t ( u r l , h e a d e r s = h e a d e r s , p r o x i e s = p r o x i e s ) p r i n t ( r e s . t e x t ) U r l l i b i m p o r t   u r l l i b . r e r q u e s t p r o x y _ h a n d l e r   =   u r l l i b . r e q u e s t . P r o x y H a n d l e r (   {         ' h t t p ' : ' 1 1 3 . 1 0 9 . 1 6 2 . 8 5 : 8 0 8 ' } ) o p e n e r   =   u r l l i b . r e q u e s t . b u i l d _ o p e n e r ( p r o x y _ h a n d l e r ) r e s   =   o p e n e r . o p e n ( u r l ) p r i n t ( r e s . r e a d ( ) . d e c o d e ( ' u t f - 8 ' )
r e s           [ t n r f ] . S         < t d   d a t a = " I P " > 1 . 1 . 1 . 1 < / t d > < t d   d a t a = " P O R T " > 8 0 < / t d > t d   < t d s d a t a = " I P " > ( . * ? ) < / t d > s + < t d s d a t a = " P O R T " > ( . * ? ) < / t d > B e a u t i f u l   l x m l   x m l s o u p   =   B e a u t i f u l S o u p ( h t m l , ' l x m l ' ) s o u p   =   B e a u t i f u l S o u p ( h t m l , ' x m l ' ) 1 . s o u p . p [ ' n a m e ' ] s o u p . p . s t r i n g 2 . f i n d _ a l l ( )     , f i n d ( )         , s o u p . f i n d ( ' t a b l e ' , { ' i d ' : ' l i s t - 1 ' } ) 3 . c s s s e l e c t ( )   c s s s o u p . s e l e c t ( ' t i t l e ' ) c l a s s / i d   s o u p . s e l e c t ( ' # l i s t ' ) s o u p . s e l e c t ( ' p   . l i s t _ 1 ' )
s o u p . s e l e c t ( ' a [ c l a s s = " s i s t e r " ] ' ) s o u p . s e l e c t ( ' p   . l i s t _ 1 ' ) . t e x t ( ) c s s   P y Q u e r y h t m l f r o m   p y q u e r y   i m p o r t   P y Q y e r y   a s   p q d o c   = p q ( h t m l ) p r i n t ( d o c ( ' t i t i l e ' ) ) u r l d o c = p q ( u r l ) p r i n t ( d o c ( ' t i t l e ' ) ) d o c = p q ( f i l e n a m e = ' d e m o . h t m l ' ) p r i n t ( d o c ( ' t i t l e ' ) c s s p r i n t ( d o c ( ' # l i s t   l i ' ) ) b s            
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则