Kom ihåg mig?
Home Menu

Menu


Problem med att läsa in HTML fil i PHP

 
Ämnesverktyg Visningsalternativ
Oläst 2009-01-21, 01:51 #1
patrikiden patrikiden är inte uppkopplad
Nykomling
 
Reg.datum: Nov 2004
Inlägg: 3
patrikiden patrikiden är inte uppkopplad
Nykomling
 
Reg.datum: Nov 2004
Inlägg: 3
Nu är det så att jag behöver text informationen som ligger mellan alla <h1><h2><h3> och <td> taggar i en HTML fil. Men hjälp av dessa data skall jag senare lägga in i en databas.

Genom att använda denna kod nedan, så får jag ut ett hyfsat resultat. Men . . . . . . . .

Kod:
$myFile = 'fil.html'; 
 
$content = file_get_contents($myFile); 
 
preg_match_all("|<[^>]+>(.*)</[^>]+>|U", $content, $out, PREG_PATTERN_ORDER); 
 
$i=0;
while($i < count($out[0])) {
 * echo "<br>" . $i . " " . $out[0][$i]; 
 * $i++;
 * 
}

unset($out);

När jag läser in filen, så kommer inte all data med. Viss array finns inte och det är precis som ett värde har försvunnit vid läsningen av filen. Om ni tittar på koden nedan så försvinner värdet mellan den andra TD taggarna (If activated.........)

Det finns en hel del blanka tecken i filen som jag inte vet riktigt vad det är. Och jag vet att HTML filen är genererad av Lotus Word Pro om det kan vara till någon hjälp? Kan det vara några udda tecken eller annan udda encodning på filen? Vet ej vilket operativsystem som används för att skapa den, men det är nog IBM relaterad.

Kan man inte ta bort alla blankatecken också som ligger mellan taggarna(inte det som ligger i taggarna, utan utanför) innan man läser in det som står mellan taggarna? Är det fel i koden?

Jag kan också nämna att varanna rad i html filen är helt blank. Och där det blir problem med att hitta informationen så ser koden ut så här i HTML filen.


Kod:
 * * *<TR> 

 * * * *<TD ALIGN="LEFT" VALIGN="TOP">Post Office Protocol (POP) authentication</TD>

 * * * *<TD ALIGN="LEFT" VALIGN="TOP">If activated, 

 * * * * *POP services must be configured to require users to authenticate. POP 

 * * * * *services that do not support authentication must be disabled.</TD>

 * * * *<td bgcolor=gray ALIGN="LEFT" VALIGN="TOP"><font color=white>NA - This setting is not implemented in this version of SCR</font></TD>

 * * * *<TD ALIGN="LEFT" VALIGN="TOP">&nbsp</TD>

 * * * *<TD ALIGN="CENTER" VALIGN="TOP">2.1.1</TD>

 * * *</TR>

 * * * 

 * * *<TR> 

 * * * *<TH SCOPE='row' COLSPAN="5" ALIGN="LEFT" VALIGN="TOP">TCP/IP 

 * * * * *Net News Transfer Protocol (NNTP)</TH>

 * * *</TR>

 * * * 

 * * *<TR> 

 * * * *<TD ALIGN="LEFT" VALIGN="TOP">Net News 

 * * * * *Transfer Protocol (NNTP) authentication &amp; identification</TD>

 * * * *<TD ALIGN="LEFT" VALIGN="TOP">If activated, 

 * * * * *must be configured to require authentication and identification of all 

 * * * * *users if any of the newsgroups on the server are classified confidential.</TD>

 * * * *<td bgcolor=gray ALIGN="LEFT" VALIGN="TOP"><font color=white>NA - Procedural value - cannot be checked automatically<br>
<a href=details_AR.1.1.2_NNTP_AUTH_170.html><center>(Details)</center></a></font></TD>

 * * * *<TD ALIGN="LEFT" VALIGN="TOP">&nbsp</TD>

 * * * *<TD ALIGN="CENTER" VALIGN="TOP">2.1.1</TD>

 * * *</TR>
Resultatet blir:

13 Post Office Protocol (POP) authentication
14 NA - This setting is not implemented in this version of SCR
15
16 2.1.1
17
(Details)

18
19
20 2.1.1



Som ni märker så saknas det en array värde mellan 13 och 14 som skall vara "If activated........"
Och på den andra stycket så saknas det också värden på 17,18 och 19. Och dessutom så saknas det en array värde mellan 17 och 18.

Behöver hjälp, har stångats med detta länge nu utan att komma någonstans.

MVH Patrik

Uppdaterat:

Jag kollade på resultatet innan jag körde preg_match_all och då finns allt med, så då måste det vara något fel på denna function. Men vad? Är det reguljära uttrycken?
patrikiden är inte uppkopplad   Svara med citatSvara med citat
 


Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)
 

Regler för att posta
Du får inte posta nya ämnen
Du får inte posta svar
Du får inte posta bifogade filer
Du får inte redigera dina inlägg

BB-kod är
Smilies är
[IMG]-kod är
HTML-kod är av

Forumhopp


Alla tider är GMT +2. Klockan är nu 05:57.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson
 
Copyright © 2017