Semalt: Як выкарыстоўваць Python для выскрабання сайта?

Дадзеныя гуляюць важную ролю ў расследаванні, ці не так? Гэта можа прывесці да новага погляду на рэчы і развіць іншыя погляды. Самае прыкрае, што дадзеныя, якія вы шукаеце, звычайна не даступныя. Вы можаце знайсці яго ў Інтэрнэце, але ён можа быць не ў фармаце, які можна загрузіць. У такім выпадку вы можаце выкарыстоўваць тэхніку выскрабання ў Інтэрнэце для праграмавання і збору неабходных дадзеных.

Існуе некалькі падыходаў да выскрабання і моў праграмавання, якія могуць дапамагчы вам у гэтым працэсе. Гэты артыкул дапаможа вам даведацца пра тое, як выкарыстоўваць мову python для выпрацоўкі сайта. Вы атрымаеце шмат уяўленняў аб працы вэб-старонак. Вы таксама зразумееце, як распрацоўшчыкі структуруюць дадзеныя на любым сайце.

Лепшая адпраўная кропка - загрузка і ўстаноўка раздзелу Anaconda Python на вашай вылічальнай машыне. Вы таксама можаце ўзяць падручнікі па асновах гэтай мовы праграмавання. Лепшае месца, каб адправіцца, можа быць Codecademy, асабліва калі вы не ведаеце ў гэтым пытанні.

У гэтым кіраўніцтве будзе выкарыстоўвацца бягучы спіс кампаній для зняволеных. Мы дапаможам даведацца, як выкарыстоўваць сцэнар Python, каб атрымаць спіс зняволеных і атрымаць некаторыя дадзеныя, такія як горад пражывання і расы для кожнага зняволенага. Увесь сцэнарый, які мы будзем праводзіць, захоўваецца і адкрываецца ў GitHub. Гэта адна з папулярных інтэрнэт-платформаў, якая дазваляе абменьвацца кампутарнымі кодамі. У кодах ёсць доўгі спіс каментарыяў, якія могуць вам вельмі дапамагчы.

Пры выскрабанні любога сайта першым інструментам для пошуку з'яўляецца вэб-браўзэр. Большасць аглядальнікаў дасць карыстальнікам інструменты HTML для агляду, якія дапамагаюць узняць люк у адсеку рухавіка і зразумець структуру старонкі. Спосаб доступу да кожнага інструмента вар'іруецца ад аднаго браўзэра да іншага. Аднак асновай з'яўляецца "Прагляд крыніцы старонкі, і вы можаце атрымаць яе, націснуўшы правай кнопкай мышы на старонцы непасрэдна.

Пры праглядзе крыніцы HTML на старонцы табліцы пажадана акуратна пералічыць падрабязнасці спасылак на зняволенага. Наступным крокам будзе напісанне сцэнарыя, які мы збіраемся выкарыстоўваць для атрымання гэтай інфармацыі. Два пакеты Python, якія мы збіраемся выкарыстаць у працэсе цяжкага ўздыму, - "Прыгожы суп" і "Запыты". Пераканайцеся, што вы ўсталюеце іх, перш чым пачаць запускаць код.

Скрыпт у інтэрнэце будзе рабіць тры рэчы. Сюды ўваходзіць загрузка старонак з спісам і вылучэнне спасылак на старонкі з падрабязнасцямі, загрузка кожнай старонкі з падрабязнасцямі і выманне дадзеных і раздрукоўка вынятых дадзеных у залежнасці ад таго, як яна фільтруецца, як горад пражывання і расы. Пасля таго, як вы гэта зразумееце, наступным этапам з'яўляецца пачатак працэсу кадавання з выкарыстаннем прыгожых супаў і запытаў.

Па-першае, лагічна загрузіце старонку спісу зняволеных, выкарыстоўваючы URL-адрес request.get, а потым выкарыстоўвайце прыгожы суп, каб размясціць яго. Пасля гэтага мы выцягваем спасылку на старонкі з падрабязнасцямі, пракручваючы кожны радок. Пасля разбору звестак пра зняволенага наступным крокам будзе здабыць у слоўніку пол, узрост, расу, час браніравання і імя. Кожны зняволены атрымае свой слоўнік, і ўсе слоўнікі будуць унесены ў спіс зняволеных. Нарэшце, перабярыце гонку і каштоўнасці горада, перш чым вы нарэшце раздрукуеце свой спіс.

mass gmail