I would like to take the content of the site, remove only the text and insert my tags, but in this code I did, when he finds the text "Art" it does not leave the if, and then only the first ones are tagged li, the rest are all tagged ul.
Someone could help me
# Use the Curl extension to query Google and get back a page of results $url = "www.planalto.gov.br/ccivil_03/constituicao/constituicaocompilado.htm"; $ch = curl_init(); $timeout = 5; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); $html = curl_exec($ch); curl_close($ch); # Create a DOM parser object $dom = new DOMDocument(); # Parse the HTML from Google. # The @ before the method call suppresses any warnings that # loadHTML might throw because of invalid HTML in the page. @$dom->loadHTML($html); # Iterate over all the tags foreach($dom->getElementsByTagName('font') as $link) { $mystring = $link->nodeValue; $findme = 'Art'; $pos = strpos($mystring, $findme); if ($pos === false) { echo "li"; echo $link->nodeValue; echo "/li"; } else { echo "/ul"; echo "ul id='' class='artigo'"; echo "li"; echo $link->nodeValue; echo "/li"; } }
So the end result is like this
_ul id="titulo1" class="titulo"> _h3>TÍTULO I_/h3> _p>Dos Princípios Fundamentais_/p> _/ul> _ul id="titulo1_artigo1" class="artigo"> _li> _ul class="caput"> _li> Art. 1º A República ... tem como fundamentos: _/li> _/ul> _/li> _li> _ul class="incisos"> _li> I - a soberania;_/li> _li> II - a cidadania_/li> _li> III - o pluralismo político._/li> _/ul> _/li> _li> _ul class="paragrafos"> _li>Parágrafo único. Todo o ... desta Constituição. _/li> _/ul> _/li> _/ul> _ul id="titulo1_artigo2" class="artigo"> _li> _ul class="caput"> _li> Art. 2º São Poderes da União, independentes e harmônicos entre si, o Legislativo, o Executivo e o Judiciário. _/li> _/ul> _/li> _/ul>