WN - Visa ett inlägg - HtmlAgilityPack

peterbf · 2008-10-31, 13:10

Tjänare!

Nu har man börjat på WN också, här verkar det vara en trevlig stämning i trådarna!

Jag jobbar just nu med ett projekt där jag vill hämta artiklar från Wikipedia och presentera text på min webbplats. Jag använder följande kod för att hämta data från HTTP för att senare ladda in datan i ett HtmlDocument och tillslut konvertera till XDocument:

Kod:

        HtmlWeb document = new HtmlWeb();
        string url = "http://en.wikipedia.org/wiki/Manchester_united";
        Uri uri = new Uri(url);

        HtmlDocument doc = document.Load(url);

        var XDoc = doc.ToXDocument();

        XDoc.Save(Server.MapPath("output.xml"));

ToXDocument() är en extension method som jag själv adderat till namespace:t. Den ser ut som följer:

Kod:

  public static class HtmlDocumentExtensions
  {
    public static XDocument ToXDocument(this HtmlDocument document)
    {
      using (StringWriter sw = new StringWriter())
      {
        document.OptionOutputAsXml = true;
        document.Save(sw);
        return XDocument.Parse(sw.GetStringBuilder().ToString());
      }
    }
  }

Som ni ser så sparar jag ned filen för att se vad den returnerar och på så sätt hämta ut det jag vill från dokumentet, d.v.s. texten, informationen om - i detta fall - Manchester United. Det som returneras i "output.xml" är just nu följande:

http://aspsidan.se/code/default.asp?c=23755

Är det någon själ här inne som har egna erfarenheter av HtmlAgilityPack som kan hjälpa mig iterera genom dokumentet för att hitta det jag söker? Det krävs kanske bara ett litet exempel. Just nu ser ju inte outputen ut som en XML-fil vilket förvirrar mig. För på rätt spår är jag väl?