Back to Question Center
0

Semalt: X'inhu l-iktar mod effettiv biex jinbara l-kontenut minn sit elettroniku?

1 answers:

Brix tad-dejta huwa l-proċess ta 'estrazzjoni ta' kontenut minn websajts li jużaw applikazzjonijiet speċjali. Għalkemm id-data tal-brix tinstema 'bħala terminu tekniku, tista' titwettaq faċilment b'għodda jew applikazzjoni handy.

Dawn l-għodda huma wżati biex tinġabar id-dejta li għandek bżonn minn paġni web speċifiċi malajr kemm jista 'jkun - dedicated nursing associates. Il-magna tiegħek se twettaq ix-xogħol tagħha b'mod aktar mgħaġġel u aħjar għax il-kompjuters jistgħu jirrikonoxxu lil xulxin fi ftit minuti irrispettivament minn kemm id-databases tagħhom ikunu kbar.

Qatt meħtieġa biex nġeddu mill-qiegħ websajt mingħajr ma titlef il-kontenut tagħha? L-aħjar bet tiegħek huwa li jinbarax il-kontenut kollu u tiffranka f'folder partikolari. Forsi dak kollu li għandek bżonn hija applikazzjoni jew softwer li tieħu l-URL ta 'websajt, tinbarax il-kontenut kollu u tiffranka f'folder pre-nominat.

Hawn hu l-lista ta 'għodda li tista' tipprova ssib dik li tikkorrispondi għall-bżonnijiet kollha tiegħek:

1. HTTrack

Din hija utilità tal- tista 'tiġbed il-websajts. Tista 'tikkonfiguraha b'mod li għandek bżonn biex tiġbed il-websajt u żżomm il-kontenut tagħha. Huwa importanti li wieħed jinnota li HTTrack ma jistax iġib il-PHP peress li huwa kodiċi tas-server. Madankollu, tista 'tlaħħaq ma' immaġini, HTML, u JavaScript.

2. Uża "Save As"

Tista 'tuża l-għażla "Save As" għal kwalunkwe paġna ta' websajt. Se jiffranka paġni bi kważi l-kontenut kollu tal-midja. Minn browser Firefox, mur Għodda, imbagħad agħżel Page Info u kklikkja Media..Se toħroġ b'lista tal-midja kollha li tista 'tniżżel. Għandek tiċċekkjah u agħżel dawk li tixtieq estratt.

3. GNU Wget

Tista 'tuża GNU Wget biex takkwista l-websajt kollha f'għajnejk. Madankollu, din l-għodda għandha żvantaġġ żgħir. Ma tistax teżamina l-fajls tas-CSS. Barra minn hekk, tista 'tlaħħaq ma' kwalunkwe fajl ieħor. Tniżżel fajls permezz ta 'FTP, HTTP, u HTTPS.

4. Simple HTML DOM Parser

HTML DOM Parser hija għodda effettiva ta 'brix li tista' tgħinek tinbara l-kontenut kollu mill-website tiegħek. Huwa għandu xi alternattivi mill-qrib ta 'partijiet terzi bħal FluentDom, QueryPath, Zend_Dom u phpQuery, li jużaw DOM minflok String Parsing.

5. Scrapy

Dan il-qafas jista 'jintuża biex jinbarax il-kontenut kollu tal-website tiegħek. Innota li r-ruttam tal-kontenut mhuwiex l-unika funzjoni tiegħu, peress li jista 'jintuża għal ittestjar awtomatizzat, monitoraġġ, tħaffir tad-data u web crawling.

6. Uża l-kmand offrut hawn taħt biex jinbarax il-kontenut tal-website tiegħek qabel ma tinġibedha barra:

file_put_contents ("/ some / directory / scrape_content.html", file_get_contents ('https://google.com'));

Konklużjoni

Għandek tipprova kull waħda mill-għażliet enumerati hawn fuq, peress li kollha għandhom il-punti sodi u dgħajfa tagħhom. Madankollu, jekk ikollok bżonn tinbara numru kbir ta 'websajts, huwa aħjar li ssir referenza għal speċjalisti tal-brix tal-web, minħabba li dawn l-għodod jistgħu ma jkunux jistgħu jimmaniġġaw b'volumi bħal dawn.

December 7, 2017