(il merito dell'idea va a Daniele
E anche notare che ci sono filetype:pdf (la maggioranza) e
filetype:docx.
Grazie Chris per l'attribution corretta
Vorrei anche contestualizzare l'idea: eravamo una sera in pizzeria e c'erano due opinioni contrastanti sull'impatto di una migrazione a LO di una PA (non la nostra), per dirimere la questione abbiamo usato google (dal telefono, per inciso).
Adesso sentire che questo viene vissuto come la metrica di tutte le PA mi fa sorridere e mi spaventa (se associata alla mia persona), un paio di motivi per cui non ha senso:
- come dice Chris ci sono n-mila formati in m-mila varianti
- come dice Chris ci sono documenti in doppio formato
- dell'indice Google non sappiamo nulla (ci sono dentro anche documenti vecchi che non sono più accessibili dalle pagine web, per contro possono non esserci ancora documenti che lo sono)
- pagine, sezioni di siti, interi siti, singoli documenti, tipi di documenti, etc. possono essere esclusi dall'indice direttamente dal sito (in modo volontario o per incompetenza)
- sottodomini? come sappiamo tutti i sottodomini di una PA?
-... devo continuare?
Insomma, è un bel gioco e sicuramente fare una ricerchina va bene per vincere una pizza ("scommetto che ci sono meno documenti in formato proprietario di quelli in formato libero") ma non fatene una cosa diversa. O fatelo pure, ma ricordatevi di questa mia mail
Se si vuole avere metriche (più) sensate, ci vuole uno spider custom, come ha detto giustamente Chris, ma per fare una cosa fatta bene serve un coordinamento con la PA interessata, vedi alla voce TestingMachine...
Bye,
Chris.
Che poi non ho mica capito tutta questa fregola di contare: se - come dice Paolo - i documenti in formato proprietario *non* si possono usare, basta che io cittadino ne trovo uno e la PA è nel torto. Se la PA internamente deve usare un motore di ricerca per valutare come sta progredendo nella migrazione... beh non commento
Ciao
Daniele