Semalt: Kukunja kwa Wavuti na Python

Je! Umepitia moja ya wakati huo wa kutisha wakati hauna Wi-Fi. Ikiwa ni hivyo, basi umegundua ni kiasi gani cha kile unachofanya kwenye kompyuta yako hutegemea wavu. Kwa tabia mbaya, utajikuta ukiangalia barua pepe yako, kutazama picha za rafiki yako wa Instagram pamoja na kusoma barua zao.
Kwa kuwa kazi nyingi za kompyuta zinajumuisha michakato ya wavuti, itakuwa rahisi sana ikiwa programu zako zinaweza kupata mkondoni pia. Hii ndio kesi kwa chakavu cha wavuti . Inajumuisha kutumia programu kupakua na kuchakata yaliyomo kutoka kwenye wavuti. Kwa mfano, Google hutumia programu kadhaa za chakavu kurasa za kurasa za wavuti kwa injini zao za utaftaji.

Kuna njia nyingi ambazo unaweza kutafuta data kutoka kwa wavuti. Njia nyingi hizi zinahitaji agizo la anuwai ya programu za programu kama vile Python na R. Kwa mfano, na Python, unaweza kutumia moduli kadhaa kama vile Maombi, supu nzuri, Webbrowser, na Selenium.
Moduli ya 'Maombi' hukuruhusu nafasi ya kupakua faili kwa urahisi kutoka kwa wavuti bila kuwa na wasiwasi mwenyewe juu ya maswala magumu kama shida za kiunganisho, makosa ya mtandao na compression ya data. Sio lazima kuja na Python, na kwa hivyo itabidi usakinishe kwanza.
Moduli ilitengenezwa kwa sababu moduli ya Python 'urllib2' ina shida nyingi zinaifanya iwe vigumu kutumia. Kwa kweli ni rahisi kufunga. Unachohitajika kufanya ni kukimbia ombi la kufunga bomba kutoka kwa mstari wa amri. Basi unahitaji kufanya mtihani rahisi ili kuhakikisha kuwa moduli imewekwa kwa usahihi. Kwa kufanya hivyo, unaweza kuandika '>>> maombi ya kuingiza' kwenye ganda linaloingiliana. Ikiwa hakuna ujumbe wa hitilafu unaojitokeza, basi kusanikisha kulifanikiwa.
Ili kupakua ukurasa, unahitaji kuanzisha kazi ya 'application.get ()'. Kazi inachukua safu ya URL kupakua na kisha inarudisha kitu cha 'majibu'. Hii ina majibu ambayo seva ya wavuti ilirudi kwa ombi lako. Ikiwa ombi lako litafaulu, basi ukurasa wa wavuti uliopakuliwa umehifadhiwa kama kamba kwenye maandishi ya vitu vya majibu.
Kitu cha kujibu kawaida huwa na sifa ya nambari ya hali ambayo unaweza kutumia kujua ikiwa kupakua kwako kulifanikiwa. Vivyo hivyo, unaweza kupiga njia ya 'kuongeza_for_status ()' kwenye kitu cha kujibu. Hii inaleta ubaguzi ikiwa kuna makosa yoyote ya kupakua faili. Ni njia nzuri ya kuhakikisha kuwa programu inaacha kutokea kwa upakuaji mbaya.

Kuanzia hapa, unaweza kuhifadhi faili yako ya wavuti iliyopakuliwa kwenye dereva yako ngumu kwa kutumia kazi za kawaida, 'fungua ()' na 'andika ()'. Walakini, ili kuhifadhi rekodi ya maandishi ya Unicode, itabidi ubadilishe data ya maandishi na data ya binary.
Kuandika data kwa faili, unaweza kutumia njia ya 'kwa' kitanzi na 'iter_content ()'. Njia hii inarudisha idadi kubwa ya data kwenye kila iteration kupitia kitanzi. Kila wingi uko kwenye ka, na lazima uelezee ni kiasi ngapi kila wingi utakuwa na. Unapomaliza kuandika, piga simu 'funga ()' ili kufunga faili, na kazi yako sasa imeisha.