Cum importe datele de observare a OZN pe Internet într-o foaie de calcul Google
Atunci când vine vorba de baze de date online și informații care pot fi găsite în interiorul ceea ce este cunoscut sub numele de “invizibil web 10 Motoarele de căutare pentru a explora Web invizibil 10 Motoare de căutare pentru a explora Web invizibil Suntem familiarizați cu web-ul. Dar ați știut că există o vastă memorie cache a informațiilor pe care motoarele de căutare ca Google nu au acces direct? Aceasta este rețeaua invizibilă. Citeste mai mult “, Nu sunt utilizatorul dvs. tipic. Sigur, îmi petrec puțin prea mult din timpul meu de trecere prin baze de date online în locuri precum Arhivele Naționale și sala de lectură CIA FOIA, dar trebuie să spun că nimic nu mă face mai entuziasmat decât atunci când găsesc o tabelă bazată pe HTML umplută cu volume de date aparent complexe și neconectate.
Faptul este că tabelele de date sunt o mină de aur de adevăruri importante. Datele sunt adesea colectate de armatele colecționarilor de date de colectare cu cizme pe teren. Aveți oameni din Recensământul S.U.A. călătorind întreaga țară pentru informații despre gospodărie și familie. Ai grupuri de mediu nonprofit care colectează tot felul de informații interesante despre mediu, poluare, încălzirea globală și multe altele. Și dacă sunteți în paranormal sau Ufologie, există, de asemenea, în mod constant actualizate tabele de informații despre observarea de obiecte ciudate pe cer de deasupra noastră.
În mod ironic, ați crede că orice guvern din lume ar fi interesat să știe ce fel de ambarcațiuni străine sunt văzute în ceruri în orice țară, dar se pare că nu - cel puțin nu în S.U.A. oricum. În America, colecția de viziuni neobișnuite ale meșteșugurilor a fost retrogradată la echipe de pasionați de amatori, care se reunesc la noi vizionări ale OZN-urilor, cum ar fi molii la o flacără. Interesul meu față de aceste vizionări nu provine dintr-o fascinație cu străini sau meșteșuguri de pe alte planete, ci dintr-o fascinație științifică cu modelele - de unde și de ce mai mulți oameni văd lucruri pe cer și dacă aceste vizionări ar putea reflecta ceva foarte real și mult mai mult de-a lungul pământului se întâmplă de fapt.
Pentru a explora volumele de date colectate de echipe de pasionați de OZN-uri, am dezvoltat o modalitate de a importa tabele HTML mari de date într-o foaie de calcul Google și apoi să le manipulam și să le analizăm pentru a extrage și a descoperi informații semnificative și importante. În acest articol, intenționez să vă arăt cum să faceți același lucru.
Importante date HTML în foaia de calcul Google
În acest exemplu, vă voi arăta cum să importați în foaia dvs. de calcul Google orice date care ar putea fi stocate într-un tabel pe orice site de pe Internet. Gândiți-vă la volumul enorm de date care este disponibil pe Internet astăzi sub formă de tabele HTML. Numai Wikipedia are date în tabele pentru subiecte precum încălzirea globală, Biroul de recensământ din S.U.A. are multe seturi de date populare și un pic de Googling vă va ateriza mult mai mult.
În exemplul meu, încep cu o bază de date privind Centrul Național de Raportare a UFO-urilor, care arată de fapt că ar putea fi o bază de date profundă în stil de interogare, dar dacă observați structura adreselor URL, este de fapt o semi- un sistem de raportare bazat pe pagini web statice și tabele HTML statice - exact ceea ce ne dorim atunci când căutăm date de importat.
NUForc.org este una dintre organizațiile care servește drept unul dintre cele mai mari centre de raportare pentru observarea UFO. Nu este singura, dar este suficient de mare pentru a găsi noi seturi de date cu vizionările actuale pentru fiecare lună. Alegeți să vizualizați datele sortate după criterii cum ar fi statul sau data și fiecare dintre acestea este furnizată sub forma unei pagini statice. Dacă sortați după dată și faceți clic pe cea mai recentă dată, veți vedea că în tabelul afișat există o pagină Web statică numită în funcție de formatul de dată.
Deci, acum avem un model pentru a extrage în mod regulat cele mai recente informații de vizionare din această bază de date bazată pe HTML. Tot ce trebuie să faceți este să importați primul tabel, să utilizați cea mai recentă intrare (cea de sus) pentru a identifica cea mai recentă actualizare și apoi să utilizați data acelei postări pentru a construi legătura URL unde există cel mai recent tabel de date HTML. Acest lucru va necesita doar câteva exemple ale funcției ImportHTML și apoi câteva utilizări creative ale funcțiilor de manipulare a textului. După ce ați terminat, veți avea una dintre cele mai bune foi de calcul de raportare, care se actualizează automat. Să începem.
Importul de tabele și manipularea datelor
Primul pas, desigur, este să creați noua foaie de calcul.
Deci, cum importați tabele HTML? Tot ce aveți nevoie este adresa URL în care este stocată masa și numărul tabelului de pe pagină - de obicei cel care este listat pentru prima dată este 1, al doilea este 2 și așa mai departe. Deoarece știu adresa URL a primului tabel care conține datele și numărul de vizionări afișate, este posibil să importați introducând următoarea funcție în celula A1.
= ImportHtml (“http://www.nuforc.org/webreports/ndxpost.html?”& H2,”masa”,1)
H2 deține funcția “= Oră (acum ())“, astfel încât masa se va actualiza la fiecare oră. Aceasta este probabil extremă pentru datele care actualizează acest lucru rar, așa că probabil aș putea să mă descurc zilnic. Oricum, funcția ImportHTML de mai sus aduce în tabelul de mai jos.
Va trebui să faceți o manipulare a datelor pe această pagină înainte de a putea să alcătuiți adresa URL pentru a doua masă cu toate vizionările UFO. Dar continuați și creați a doua foaie din registrul de lucru.
Înainte de a încerca să construiască cea de-a doua foaie, este timpul să extrageți data postului din această primă masă, pentru a construi legătura la al doilea tabel. Problema este că data este adusă ca un format de dată, nu un șir. Deci, mai întâi trebuie să utilizați funcția TEXT pentru a converti data postării raportului într-un șir:
= Text (A2,”mm / dd / yy”)
În celula următoare din dreapta, trebuie să utilizați funcția SPLIT cu “/” delimiter pentru a sparge data în lună, zi și an.
= Divizat (D2,”/”)
Arata bine! Cu toate acestea, fiecare număr trebuie să fie forțat la două cifre. Faceți asta în celulele de mai jos, folosind din nou comanda TEXT.
= Text (E2,”00" )
Un format de “00” (acelea sunt zerouri) forțează două cifre, sau a “0” ca substituent.
Acum sunteți gata să refaceți întreaga adresă URL la cea mai recentă tabelă HTML a noilor vizionări. Puteți face acest lucru folosind funcția CONCATENATE și combinând toți biți de informații pe care tocmai le-ați extras din prima masă.
= Concatena (“http://www.nuforc.org/webreports/ndxp”,G3, E3, F3,”.html”)
Acum, pe foaia nouă pe care ați creat-o mai sus (foaia goală), veți face un nou lucru “ImportHtml” , dar de data aceasta pentru primul parametru link URL, deci veți naviga înapoi la prima foaie de calcul și faceți clic pe celula cu link-ul de URL pe care tocmai l-ați creat.
Al doilea parametru este “masa” iar ultima este “1” (deoarece tabelul de vizionări este primul și singurul pe pagină). Apasă pe Enter și acum ai importat întregul volum de vizionări care au fost postate la acea dată.
Deci probabil credeți că este un act de noutate frumos și totul - adică, la urma urmei, ceea ce ați făcut este extragerea informațiilor existente dintr-un tabel de pe Internet și migrarea la un alt tabel, deși unul privat în Contul Google Docs. Da asta e adevărat. Cu toate acestea, acum că este în propriul dvs. cont Google Docs privat, aveți la îndemână instrumentele și funcțiile pentru a analiza mai bine aceste date și pentru a începe să descoperiți conexiuni uimitoare.
Utilizarea rapoartelor pivot pentru a analiza datele importate
Doar recent, am scris un articol despre utilizarea rapoartelor Pivot în Google Spreadsheet Deveniți un analist de date Expert Utilizând Google Spreadsheet Rapoarte Instrumente Deveniți Expert Data Analyst Overnight Folosind Google Spreadsheet Report Tools Știați că unul dintre cele mai mari instrumente de toate pentru a efectua date analiza este de fapt Google Spreadsheet? Motivul pentru aceasta este nu numai pentru că poate face aproape tot ceea ce ați putea dori să ... Citește mai mult pentru a efectua tot felul de fapte de analiză de date cool. Puteți face aceleași acrobații de analiză uimitoare a datelor pe care le-ați importat de pe Internet - oferindu-vă posibilitatea de a descoperi conexiuni interesante pe care nimeni nu le-a descoperit înainte de a vă.
De exemplu, din tabelul de observații finale, aș putea decide să folosesc un raport pivot pentru a arunca o privire asupra numărului de forme unice diferite raportate în fiecare stat, în comparație cu numărul total de vizionări în acea stare. În cele din urmă, am și eu să filtrez ceva care să menționez “străinii” în secțiunea de comentarii, să sperăm că vom elimina unele dintre cele mai multe intrări cu flanșă.
Acest lucru dezvăluie, de fapt, câteva lucruri destul de interesante chiar de pe lilieci, cum ar fi faptul că California are în mod evident cel mai mare număr de observări raportate ale oricărui alt stat, împreună cu distincția de a raporta cel mai mare număr de forme de artizanat în țară. De asemenea, arată că Massachusetts, Florida și Illinois sunt hitters mari în departamentul de observare a OZN-urilor (cel puțin în cele mai recente date).
Un alt lucru minunat despre Google Spreadsheet este gama largă de diagrame disponibile pentru dvs., inclusiv o Geo-Mapă care vă permite să vă prezentați “puncte fierbinți” de date într-un format grafic care se evidențiază într-adevăr și face acele conexiuni în cadrul datelor destul de evidente.
Dacă vă gândiți la asta, acesta este cu adevărat doar vârful aisbergului. Dacă acum puteți importa date din tabele de date pe orice pagină de pe Internet, gândiți-vă doar la posibilități. Obțineți ultimele numere de stoc sau cele mai recente 10 cărți și autori de top din lista bestseller-urilor din New York Times sau cele mai mari mașini de vânzare din lume. Există tabele HTML pe aproape toate subiectele pe care le puteți imagina și, în multe cazuri, aceste tabele sunt actualizate frecvent.
ImportHtml vă oferă posibilitatea să conectați foaia de calcul Google la Internet și să alimentați datele existente acolo. Acesta poate deveni propriul hub personal al informațiilor pe care le puteți utiliza pentru a manipula și masaj într-un format cu care puteți lucra de fapt. Este doar un lucru foarte interesant de iubit despre Google Spreadsheet.
Ați importat vreodată date în foile dvs. de calcul? Ce fel de lucruri interesante ați descoperit în acele date? Cum ați folosit datele? Distribuiți experiențele și ideile dvs. în secțiunea de comentarii de mai jos!
Credite de imagine: Graficul de afaceri
Explorați mai multe despre: Google, Foaie de calcul.