Google Books Ngram Viewer

Compania Google ne oferă în continuare surprize extraordinare. De această dată legate de patrimoniul mondial de cărţi. Dar s-o începem de la început, ca lucrurile să fie cât mai clare.

În 2004 Google a început un proiect pe cât de ambiţios, pe atât de aparent imposibil – scanarea tuturor cărţilor publicate în lume în toate limbile, trecerea lor în format digital şi oferirea accesului la cărţi tuturor doritorilor. Proiectul Google Books, căci de el e vorba, părea la început absolut utopic. Google şi timpul au dovedit că nu e aşa. La moment sunt scanate deja circa 15 milioane de cărţi din totalul de circa 130 de milioane, publicate din secolul 15, când graţie lui Johannes Gutenberg tiparul mecanic a pătruns în occident. Invenţia tiparului mecanic aparţine totuşi chinezilor, prima carte cunoscută fiind „Diamond Sutra”, publicată în anul 868. Se presupune că chinezii foloseau tiparul cu mult înainte.

Din cele 15 milioane de cărţi trecute în format digital a fost alcătuit un corpus de 5 milioane în baza căruia se lansează un alt proiect ambiţios de studiere a culturii în baza datelor numerice obţinute din această baza de date, care include circa 4% procente din toate cărţile publicate vreodată.

Corpusul final (baza de date) conţine circa 500 de miliarde de cuvinte, în 7 limbi:

  • engleză (361 miliarde),
  • franceză (45 miliarde),
  • spaniolă (45 miliarde),
  • germană (37 miliarde),
  • chineză (13 miliarde),
  • rusă (35 miliarde),
  • ebraică (2 miliarde).

Cea mai veche lucrare e publicată în secolul 15. Primele decenii sunt reprezentate doar de câteva cărţi pe an, care însumează câteva sute de mii de cuvinte. Din 1800, corpusul creşte cu circa 60 de milioane de cuvinte pe an; din 1900 – cu 1,4 miliarde şi din 2000 – cu  8 miliarde.

Corpusul nu poate fi citit de om. I-ar trebui 80 de ani pentru a citi încontinuu doar cărţile publicate din 2000 cu viteza de 200 de cuvinte pe minut, fără întreruperi pentru somn şi mâncare. Consecutivitatea de litere din corpusul specificat e mai lungă de 1000 de ori decât genomul uman: dacă ar fi scrise pe o linie dreaptă, ar ajunge la Lună şi înapoi mai mult de 10 ori.

Proiectul Google Books a stârnit chiar de la lansare controverse cu autorii de cărţi şi cu editurile, pe motivul drepturilor de autor. În restricţiile legate de această controversă, cercetările iniţiate ţin deocamdată de n-grame, adică de consecutivităţi a câte n şiruri de caractere divizate de spaţiu. O 1-gramă (uni-gramă) e formată de un şir de caractere ce nu conţine spaţiu. Uni-grama poate include cuvinte („om”, „lume”, „calculator”) dar şi numere („3,14159”, „12357”). Astfel o n-gramă reprezintă un şir din n uni-grame, care poate fi şi fraze, denumiri etc. („Republica Moldova” – 2-gramă, „”Statele Unite ale Americii” – 4-gramă). Deocamdată n este restricţionat cu 5 şi n-grama trebuie să apară de cel puţin 40 de ori.

De secole savanţii lingvişti, interesaţi de evoluţia cuvintelor şi a trendurilor lingvistice corespunzătoare, erau „condamnaţi” la citirea nenumăratelor cărţi. Google a săvârşit încă o „revoluţie liniştită”. Acest gen de cercetare poate fi efectuat cu ajutorul calculatoarelor şi de către oricine. E suficient să se acceseze şi să se lucreze cu Google Books Ngram Viewer.

Cercetările lingvistice şi cele sociale au de acum înainte noi dimensiuni numerice, evidenţiate de aceste proiect. Şi nu e vorba doar de frecvenţa n-gramelor… Spre exemplu, cercetările au arătat că limba  engleză a cunoscut o creştere enormă a numărului de cuvinte:

1900 – 544 000 de cuvinte,

1950 – 597 000 de cuvinte,

2000 – 1 022 000 de cuvinte.

Lexicul englez înregistrează o perioadă de creştere fantastică – dimensiunea lui se măreşte cu circa 8500 de cuvinte pe an. Ultimii 50 de ani limba engleză a „crescut” cu circa 70%. Mai mult, cercetările efectuate în cadrul proiectului au arăt că nici un dicţionar nu conţine toate cuvintele din corpusul limbii engleze – cel puţin 500 000 de cuvinte nu apar nici într-un dicţionar.

Alt domeniu ştiinţific care a obţinut un extraordinar instrument de cercetare e cel ce ţine de evoluţia gramaticii, de scrierea cuvintelor, de evoluţia lor.

Rezultatele care pot fi obţinute în acest proiect ţin şi de aspectele sociale, cum sunt: detectarea cenzurii şi a persecuţiei autorilor, legătura dintre vârstă şi notorietate etc.

Proiectul semanalează apariţia unui nou termen şi domeniu de cercetare – Culturomica – studiul culturii umane cu ajutorul bazelor de date de milioane de cărţi.

Mai multe detalii pot fi citite în articolul Quantitative Analysis of Culture Using Millions of Digitized Books, publicat de autorii proiectului în revista Science.

Anunțuri

6 comentarii la “Google Books Ngram Viewer

  1. Personal, o consider o realizare remarcabilă şi utilă. Să-ţi mai spun despre o invenţie Google care mi se pare deosebit de utilă. Am un telefon cu sistemul de operare Android. Dacă îndrept camera spre orice obiect, apăs declanşatorul şi apoi, un alt buton, aproape instantaneu îmi apare desfăşurătorul Google cu tot ce s-a scris şi se ştie despre acel obiect.

  2. Vio, chestia de la telefon se numeste GoogleSearch, si este adaptata pentru majoritatea smartfonurilor. Este bazata pe Image Recognition, care a fost un mare hit de studii/cercetare acum vre-o 10 ani. La fel poti si sa vorbesti in search, in limbaj natural, si google il transleaza in limbajul lui. Iarasi, Voice Recognition, un domeniu de cercetare super activ acum cativa ani. Ambele suficient de maturizate la moment.

    Valeriu, cartile de pe Google Books NU DAU ‘oferirea accesului la cărţi tuturor doritorilor’. Cartile protejate de drepturi de autor le poti vedea doar cateva pagini. Apoi apare incrierea ‘you have reached the limit for free preview’. La bara din stanga oricand este posibilitate de a cumpara cartea de pe Google Checkout. Este si normal sa fie asa, si perfect ii inteleg pe cei de la edituri. Cartile clasice, mai exact cele din ‘public domain’, si scanarea lor a pornit cu mult mai inainte decat google exista, in cadrul proiectului gutenberg, vezi si wiki. Desigur, Google a luat-o cu dimensiunea sa, si a scant cu mult mai multe (toate?) carti.

    Noul domeniu – Culturomica – suna interesant. Sa vedem cat va tine treaba cu el.

  3. Mulţumesc pentru un comentariu util! Poate că nu am explicat reuşit – când am spus tuturor doritorilor, de fapt am avut în vedere şi oferta gratuită, dar şi cea cu plată! Iar despre originile proiectului, e o informaţie foarte utilă. Chiar nu o cunoşteam!

    Am înţeles că denumirea nu e întru-totul acceptată! Nu tuturor le place! Să aşteptă şi să vedem, într-adevăr, cum se vor dezvolta mai departe lucrurile!

  4. „iubim dintr-o sete a sufletului de a sti”… se pare ca la tine iubirea a ajuns la cota universului indepartat si tinde spre infinit… adica spre Dumnezeu desigur, pentru ca din tot ce faci respira acest deziderat al existentei noastre… iti doresc din toata inima implinirea cautarilor tale si fericirea a ceea ce ne daruiesti cu atata abnegatie… La multi ani astrali, pamantesti si de care or mai fi, caci tu stii bine ce sa faci cu timpul… ma inclin cu respect in fata sufletului tau.
    Lumina, libertate, iubire!

Lasă un răspuns

Completează mai jos detaliile tale sau dă clic pe un icon pentru a te autentifica:

Logo WordPress.com

Comentezi folosind contul tău WordPress.com. Dezautentificare / Schimbă )

Poză Twitter

Comentezi folosind contul tău Twitter. Dezautentificare / Schimbă )

Fotografie Facebook

Comentezi folosind contul tău Facebook. Dezautentificare / Schimbă )

Fotografie Google+

Comentezi folosind contul tău Google+. Dezautentificare / Schimbă )

Conectare la %s