WEBBIT è un corpus di pagine Web italiane che contiene circa 150 millioni di parole.
Il corpus è stato raccolto da Marco Baroni nei primi mesi del 2007 usando un metodo simile a quello descritto nel seguente articolo:
Serge Sharoff. 2006. Creating general-purpose corpora using automated aearch engine queries. In Baroni e Bernardini (a cura di), Wacky! Working Papers on the Web as Corpus. Bologna: Gedit. 63-98.
Il corpus è stato annotato morfosintatticamente usando il TreeTagger (addestrato su risorse sviluppate alla SSLMIT di Forlì), lemmatizzato con morph-it! e indicizzato con l'IMS Corpus WorkBench.
La maschera di ricerca è un adattamento da parte mia e di Emiliano Guevara di quella sviluppata da Serge Sharoff per i suoi internet corpora (ringrazio Serge per avermi passato il suo codice, e aiutato a capirlo).
La maniera migliore di imparare a usare la maschera di ricerca è provare ad usarla! (Ovvero: sorry, non ho proprio voglia di scrivere la documentazione ;-)
Alcune cose da tenere a mente quando si usa l'interfaccia:
Per ulteriori chiarimenti, scrivetemi: marco baroni AT unitn it