Programmazione: Ottenere dati da una pagina HTML

Dopo aver visto come ottenere dati da file XML vediamo adesso come estrapolarne anche da pagine HTML (ben più difficili da gestire).

In questo breve tutorial cercherò di illustrare nel modo più semplice possibile come effettuare il parsing di una pagina html e di conseguenza come ricavare dei dati da essa.
Per fare questo farò uso di una libreria opensource chiamata HtmlCleaner (disponibile al sito http://htmlcleaner.sourceforge.net/) ed inclusa nel file compresso del progetto.Questa libreria non fa altro che "pulire" il codice html, questo perchè molte volte possono esserci errori nell'html (come per esempio tag non chiusi ecc.) i quali vengono "corretti" dai normali browser, ma ovviamente possono dare molti problemi quando bisogna creare un programma che interpreta del codice html, questa libreria quindi ci viene in aiuto generando del codice pulito.
Il funzionamento del programma è riassumibile nei seguenti passi:
1) pulizia del codice
2) caricamento in memoria del codice appena "ripulito"
3) analisi dello stesso alla ricerca delle parti che ci interessano
4) stampa tramite una TextView

Il progetto è formato da 2 classi, la prima HtmlParser è quella principale e come si può intuire dal nome è quella che si occupa di pulire ed analizzare la pagina web, la seconda classe chiamata con molta fantasia Finestra