Google a început să indexeze și fișierele format CSV

Emanuel Udrea 26 August 2023

Google a început să indexeze fișierele CSV, deși anterior folosea datele CSV prin date structurate pentru a îmbunătăți aparițiile în căutare.

Google și-a actualizat în tăcere documentația Google Search Central pentru a menționa că acum indexează fișierele .csv. Aceasta deschide o nouă cale de a fi indexat sau, dacă un editor nu dorește ca fișierele .csv să fie indexate, s-ar putea să fie nevoie să actualizeze robots.txt pentru a exclude acele fișiere.

Comma Separated Values

CSV, sau pe românește valori separate prin virgulă sunt fișiere text care salvează date într-un format tabular care poate fi afișat ca un tabel. Fișierele CSV conțin date în text simplu, ceea ce înseamnă că fișierele CSV nu conțin elemente de stil precum fonturi și nici nu conțin imagini sau linkuri active. 

Acestea sunt utile pentru lucruri precum încărcarea unei liste de URL-uri pentru indexare în software-uri precum Screaming Frog. Dar sunt de asemenea utile pentru organizarea datelor într-un tabel. 

Indexarea fișierelor CSV este o funcționalitate nouă, deoarece o căutare filetype: pe Google pentru fișiere CSV nu returnează momentan fișiere CSV.

Căutări precum următoarele nu returnează în prezent fișiere CSV:

  • filetype:csv site:.ro
  • filetype:csv site:.com

Google folosea deja în mod indirect fișierele CSV

Ceea ce este curios despre indexarea fișierelor CSV de către Google este că apariția de seturi de date Google deja folosea fișiere CSV, dar aparent doar atunci când erau descrise cu date structurate. 

Documentația datelor structurate pentru seturi de date pe vechea documentație a dezvoltatorilor Google (vizibilă pe Archive.org) menționează că fișierele CSV sunt un standard acceptabil pentru apariția în caracteristicile de căutare a seturilor de date. 

Utilizarea datelor tabulare ca apariție în căutare datează din 2018, când Google a anunțat că va afișa acest tip de date în căutare atunci când datele sunt însoțite de date structurate. 

Conform documentației originale

Seturile de date sunt mai ușor de găsit atunci când oferiți informații suplimentare precum numele lor, descrierea, creatorul și formatele de distribuție sunt furnizate sub formă de date structurate... Iată câteva exemple despre ce poate fi considerat un set de date:

  • Un tabel sau un fișier CSV cu unele date
  • O colecție organizată de tabele
  • Un fișier într-un format proprietar care conține date
  • O colecție de fișiere care împreună constituie un set de date semnificativ
  • Un obiect structurat cu date într-un alt format pe care ați dori să-l încărcați într-un instrument special pentru prelucrare
  • Imagini care captează date
  • Fișiere referitoare la învățarea automată, precum parametrii instruiți sau definițiile structurii rețelei neurale
  • Orice care vi se pare un set de date

Google a actualizat documentația de mai sus în 2022 și a redirecționat-o către noua documentație Search Central. Documentația actualizată clarifică faptul că Google se bazează pe datele structurate pentru a utiliza fișiere CSV în apariția lor de căutare a seturilor de date. 

Dar această schimbare înseamnă că Google va indexa în cele din urmă fișierele CSV și le va utiliza pentru apariții în căutare (în plus față de datele tabulare notate în date structurate)? 

Iată ce explică documentația actuală

Seturile de date sunt mai ușor de găsit atunci când oferiți informații suplimentare precum numele lor, descrierea, creatorul și formatele de distribuție sub formă de date structurate. 

Abordarea Google privind descoperirea seturilor de date se bazează pe schema.org și alte standarde de metadate care pot fi adăugate paginilor care descriu seturile de date... Iată câteva exemple despre ce poate fi considerat un set de date: Un tabel sau un fișier CSV cu unele date…

Indexarea CSV de Google legată de Actualizarea recentă? Definiția unei actualizări a algoritmului de bază este atunci când Google face „schimbări semnificative” și „vaste” algoritmului lor de bază. 

Poate fi o coincidență că indexarea fișierelor CSV și actualizarea algoritmului de bază s-au produs în același timp. Dar s-ar putea să merite să ne întrebăm dacă Google și-a îmbunătățit motorul de indexare pentru a putea indexa CSV sau dacă acea capacitate era deja acolo.

Ce tipuri de fișiere știe Google să citească

Google este capabil să indexeze o gamă largă de tipuri de fișiere. Cu toate acestea, această listă este în continuă evoluție și depinde de algoritmii și politicile Google.

Text și documente:

  • HTML (.html, .htm)
  • Adobe Acrobat (.pdf)
  • Microsoft Word (.doc, .docx)
  • Microsoft PowerPoint (.ppt, .pptx)
  • Microsoft Excel (.xls, .xlsx)
  • OpenDocument format (e.g., .odt, .ods, .odp)

Fișiere de tip imagine:

  • JPEG (.jpeg, .jpg)
  • PNG (.png)
  • GIF (.gif)
  • BMP (.bmp)
  • SVG (.svg)
  • WebP (.webp)

Fișiere video:

  • MPEG (.mpeg)
  • MP4 (.mp4)
  • AVI (.avi)
  • MOV (.mov)
  • FLV (.flv)
  • WebM (.webm)

Fișiere audio:

  • MP3 (.mp3)
  • WAV (.wav)
  • AAC (.aac, .m4a)

Fișiere specifice pentru aplicații:

  • Flash (.swf)
  • JavaScript (.js)

Fișiere de date și tipuri de bază de date:

  • Text (.txt)
  • XML (.xml)
  • RSS și Atom (.rss, .atom)
  • CSV (.csv, cum s-a menționat în textul anterior)

Alte tipuri:

  • ZIP (.zip)
  • RAR (.rar)
  • RTF (.rtf)
  • Plain Text (.txt)
  • CAD (.dwg)
  • EPS (.eps)
  • PS (.ps)
  • PSD (.psd)

Rețineți că, deși Google poate indexa aceste tipuri de fișiere, nu înseamnă că va afișa întotdeauna conținutul fiecărui fișier în rezultatele căutării. De asemenea, alegerea de a indexa un fișier poate depinde de diverse alți factori, cum ar fi relevanța, autoritatea site-ului, semnalele primite de la utilizatori și alți factori de ranking.

Consulta aici lista completă de tipuri de fișier indexate de Google.

Sus