Programmazione: Ottenere dati da una pagina HTML

Emanuele Cisotti

Programmazione, le guide di AndDev.it

Dopo aver visto come ottenere dati da file XML vediamo adesso come estrapolarne anche da pagine HTML (ben più difficili da gestire).

In questo breve tutorial cercherò di illustrare nel modo più semplice possibile come effettuare il parsing di una pagina html e di conseguenza come ricavare dei dati da essa.
Per fare questo farò uso di una libreria opensource chiamata HtmlCleaner (disponibile al sito http://htmlcleaner.sourceforge.net/) ed inclusa nel file compresso del progetto.Questa libreria non fa altro che “pulire” il codice html, questo perchè molte volte possono esserci errori nell’html (come per esempio tag non chiusi ecc.) i quali vengono “corretti” dai normali browser, ma ovviamente possono dare molti problemi quando bisogna creare un programma che interpreta del codice html, questa libreria quindi ci viene in aiuto generando del codice pulito.
Il funzionamento del programma è riassumibile nei seguenti passi:
1) pulizia del codice
2) caricamento in memoria del codice appena “ripulito”
3) analisi dello stesso alla ricerca delle parti che ci interessano
4) stampa tramite una TextView

Il progetto è formato da 2 classi, la prima HtmlParser è quella principale e come si può intuire dal nome è quella che si occupa di pulire ed analizzare la pagina web, la seconda classe chiamata con molta fantasia Finestra :P serve solamente a stampare il risultato dell’elaborazione.

Per semplicità (e anche per poco tempo disponibile :P) il programma non fa altro che ricevere come url il sito da analizzare e stampa tutti i link che trova nella pagina stessa.

Guida e file sorgente nel forum di AndDev.it.