Back to Question Center
0

BeautifulSoup To Grab Kontenut tal-Webpage F'ħames Minuti - Espert tas-Semalt

1 answers:

Beautiful Soup huwa l-pakkett ta 'Python użat għall-analiżi ta' dokumenti XML u HTML. Hija toħloq siġar parse għal paġni tal-web u hija disponibbli għal Python 2 u Python 3. Jekk għandek websajt li ma tistax tinqata 'kif suppost, tista' tuża oqfsa BeautifulSoup differenti. Id-data estratta se tkun komprensiva, tinqara u tista 'titkejjel li fiha lottijiet ta' kliem prinċipali ta 'denb qasir u twil - couchbase analytics service.

Bħal BeautifulSoup, lxml jista 'jiġi integrat ma' html. modulu parser konvenjenti. Waħda mill-aktar karatteristiċi distintivi ta 'dan il-lingwa ta' programmar hija li tipprovdi protezzjoni kontra l-ispam u riżultati aħjar għal dejta f'ħin reali. Kemm lxml kif ukoll BeautifulSoup huma faċli biex titgħallmu u jipprovdu tliet funzjonijiet ewlenin: formatting, parsing u konverżjoni tas-siġar. F'dan it-tutorial, aħna ngħallmu kif tuża BeautifulSoup biex tieħu t-test ta 'paġni tal-web differenti.

Installazzjoni

L-ewwel pass huwa li tinstalla BeautifulSoup 4 permezz ta 'pip. Dan il-pakkett jaħdem kemm fuq Python 2 u 3. BeautifulSoup huwa ppakkjat bħala kodiċi Python 2; u meta nagħmlu użu minnha ma 'Python 3, tinkiseb aġġornata awtomatikament għall-aħħar verżjoni, iżda l-kodiċi mhux aġġornat sakemm aħna nstallaw il-pakkett Python sħiħ.

Installazzjoni ta 'Parser

Tista' tinstalla parser xieraq, bħal html5lib, lxml u html. parser. Jekk għandek installat pip, ikollok bzonn li timporta minn bs4. Jekk tniżżel is-sors, ikollok bżonn timporta minn librerija ta 'Python. Ftakar li l-parser lxml jiġi f'żewġ verżjonijiet differenti: parser XML u parser HTML. L-analizer HTML ma jiffunzjonax tajjeb ma 'verżjonijiet qodma ta' Python; għalhekk, tista 'tinstalla l-parser XML jekk l-parser HTML jieqaf jirrispondi jew ma jiġix stallat kif suppost. L-parser lxml huwa relattivament veloċi u affidabbli u jagħti riżultati preċiżi.

Uża BeautifulSoup biex ikollok aċċess għal kummenti

Bil BeautifulSoup, tista 'tikseb aċċess għall-kummenti tal-paġna web mixtieqa. Normalment il-kummenti jinħażnu fit-taqsima tal-Oġġett tal-Kummenti u jintużaw biex jirrappreżentaw kontenut tal-paġna tal-internet kif suppost.

Titoli, Links, u Intestaturi

Tista 'faċilment tiġbed titoli tal-paġna, links u intestaturi b'SainSoup. Inti sempliċiment għandek tikseb il-markup tal-paġna b'kodiċi speċifiku. Ladarba l-markup jinkiseb, tista ' tfarrak id-data minn intestaturi u subintestaturi wkoll.

Navigate l-DOM

Nistgħu nbaħħru permezz tas-siġar DOM billi tuża BeautifulSoup. L-ikkatenar ta 'l-ittri se jgħinuna nneħħi d-data għal finijiet ta' SEO.

Konklużjoni:

Ladarba jitlestew il-passi deskritti hawn fuq, inti tkun tista 'grab text tal-webpage b'mod konvenjenti. Il-proċess kollu mhux se jieħu aktar minn ħames minuti u jipprometti riżultati ta 'kwalità. Jekk qed tfittex li tiġbed id-dejta minn dokumenti HTML jew fajls PDF, allura l-ebda BeautifulSoup u lanqas Python ma jgħinuk. F'ċirkostanzi bħal dawn, għandek tipprova ruttam HTML u tanalizza d-dokumenti tal-web tiegħek faċilment. Għandek tieħu vantaġġ sħiħ mill-karatteristiċi ta 'BeautifulSoup biex tinbara data għal skopijiet ta' SEO. Anke jekk nippreferu l-parsers HTML ta 'lxml, xorta nistgħu nieħdu vantaġġ mis-sistema ta' appoġġ ta 'BeautifulSoup u nistgħu nibdew riżultati ta' kwalità fi kwistjoni ta 'minuti.

December 22, 2017