Back to Question Center
0

Semalt - Kif Biex Tinbotta Paġni tal-Web?

1 answers:

Beautiful Soup hija librerija tal-Python użata ħafna biex jinbarax il-paġni tal-web billi tinħoloq siġra parse minn dokumenti XML u HTML. Ir-ruttam tal-Web, teknika ta 'estrazzjoni ta' dejta minn websajts u paġni, huwa użat ħafna fl-oqsma tal-analiżi u l-ġestjoni tad-dejta. Fil-biċċa l-kbira tal-każijiet, il-lingwa ta 'programmar Python hija prerekwiżit fid-data science - web development company.

Python 3 għandu għodod tal-brix u moduli li tista 'tapplika għall-proġett tiegħek ta' ġestjoni tad-dejta. Bħalissa għaddej bħala Beautiful Soup 4, dan il-modulu huwa kompatibbli kemm ma 'Python 3 u Python 2. 7. Il-modulu Beautiful Soup 4 huwa wkoll kapaċi li joħloq siġra parse għal soppa tal-lametta mhux magħluqa. F'dan il-tutorja, inti ser titgħallem kif tinbarax il-paġna u tikteb id-data skartata għal fajl CSV.

Bidu

Biex tibda, waqqfet server jew ambjent ta 'kodifikazzjoni Python bbażat fuq il-PC tiegħek. Għandek ukoll tinstalla l-modulu Beautiful Soup u Requests fuq il-magna tiegħek. L-għarfien tal-ħidma maż-żewġ moduli huwa wkoll prerekwiżit meħtieġ. Il-familjarità mal-immarkar u l-istruttura HTML hija wkoll vantaġġ miżjud.

Nifhmu d-data tiegħek

F'dan il-kuntest, data vera mill-Gallerija Nazzjonali tal-Arti se tintuża biex tgħinek tifhem kif tuża Beautiful Soup 4. Il-Gallerija Nazzjonali ta 'l-Art tikkonsisti minn 120,000 biċċa li jsiru minn approssimattiva ta' 13,000 artisti. L-Art hija bbażata f'Washington D. C, l-Istati Uniti.

L-estrazzjoni tad-dejta tal-Web ma 'Beautiful Soup mhijiex dik ikkumplikata. Per eżempju, jekk tiffoka fuq l-ittra Z, immarka u nnota l-ewwel isem fuq il-lista. F'dan il-każ, l-ewwel isem huwa Zabaglia, Niccola. Għal konsistenza, indika n-numru ta 'paġni u l-isem tal-aħħar artist fuq dik il-paġna.

Kif timporta Talbiet u Librerija sabiħa tas-Soppa

Biex timporta l-libreriji, attivat l-ambjent ta 'programmazzjoni Python 3 tiegħek. Iċċekkja biex taċċerta ruħek li tkun fl-istess direttorju bl-ambjent ta 'programmazzjoni tiegħek. Mexxi l-kmand li ġej biex tibda. my_env / bin / attivate.

Oħloq fajl ġdid u tibda timporta l-Libreriji tas-Soppa u talbiet kbar. Il-librerija tal-Talbiet tħallik tuża HTTP fil-programmi Python tiegħek f'formati li jinqraw. Beautiful Soup, min-naħa l-oħra, taħdem biex tinbarax il-paġni malajr. Uża l-bs4 għall-importazzjoni ta 'Soup sabiħ.

Kif tiġbor u tanalizza paġna web

Użu ta 'Talbiet jiġbru URL tal-ewwel paġna tiegħek. L-URL tal-ewwel paġna se jiġi assenjat lill-paġna varjabbli. Ibni oġġett BeautifulSoup minn Talbiet u analizza l-oġġett mill-parser ta 'Python.

F'dan il-tutorja, l-għan huwa li tiġbor ir-rabtiet u l-ismijiet tal-artisti. Per eżempju, tista 'tiġbor id-dati u n-nazzjonalitajiet tal-artisti. Għall-utenti tal-Windows, ikklikkja fuq id-dritt tal-isem tal-artist. F'dan il-każ, uża Zabaglia, Niccola. Għal utenti tal-Mac OS, vit "CTRL" u kklikkja l-isem. Ikklikkja fuq il-menu "Spezzjona Element" li pop-ups fuq l-iskrin tiegħek biex ikollok aċċess għall-għodod tal-iżviluppaturi tal-web. Stampa l-ismijiet ta 'l-artist biex tagħmel il-Beautiful Soup parse siġra malajr.

It-tneħħija tar-rabtiet tal-qiegħ

Biex tneħħi r-rabtiet tal-qiegħ fuq il-paġna web tiegħek, spezzjona d-DOM billi tikklikkja-. Trid tidentifika li l-links huma taħt tabella HTML. Bl-użu ta 'Soppa sabiħa, uża l- "metodu ta' jiddekomponi" biex tneħħi t-tikketti mis-siġra tal-parse.

Kif tiġbed il-kontenut minn tikketta

M'għandekx għalfejn tipprintja t-tikketta kollha tal-link, tuża Soup sabiħ biex tneħħi materjal minn tikketta. Tista 'wkoll tiġbor URLs assoċjati ma' l-artisti billi tuża Soup sabiħ 4.

Qbid ta 'dejta mibruxa f'fajl CSV

Fajl CSV jippermettilek taħżen data strutturata f'test sempliċi, format li l-aktar jintuża għal skedi ta' data. Huwa rrakkomandat l-għarfien dwar it-tqandil ta 'fajls ta' test sempliċi f'Python.

L-estrazzjoni tad-dejta tal-Web tintuża biex jinbarax il-paġni u tinkiseb informazzjoni. Kun considerate tal-websajts li qed tieħu informazzjoni mill-estrazzjoni. Uħud mill-websajts dinamiċi jirrestrinġu l-estrazzjoni tad-dejta tal-web fis-siti tagħhom. Li tinbara paġna ma 'Beautiful Soup u Python 3 hija dik sempliċi.

December 22, 2017