Articles of html parsing

Ele! P com elementos PHP DOM

Estou tentando obter sinônimos automaticamente com palavras usando CURL, mas estou tendo problemas. Esta é a parte no HTML baixado com curl onde os sinônimos são: “vagabunda”, “piriguete”, “vagabundagem”, “gandaia”, etc. Vagabunda Adicionar palavra (Sin?nimo) Piriguete visualizar palavras (Sin?nimo) Prom?scua visualizar palavras vagabundagem Adicionar palavra (Sin?nimo) gandaia visualizar palavras (Sin?nimo) l?u visualizar palavras (Sin?nimo) madra?aria […]

Html Dom parser obtém o primeiro elemento

Oi, estou usando a biblioteca php simple_html_dom para obter conteúdo de outro site. Tenho abaixo da estrutura html, DSLR D7100 new Usando isso @$html->find ( ‘div[class=nik_block_product_main_info_component_inner] h1’,0)->plaintext; Mas estou obtendo saída como DSLR+D7100new Como obter apenas o primeiro texto simples ou seja, precisa obter apenas DSLR D7100

Aplicar wordwrap para conteúdo html, excluindo atributos html

Eu não estou acostumado a expressões regulares, então isso pode parecer fácil, enquanto é complicado para mim. Basicamente, estou aplicando wordwrap ao conteúdo, que contém tags html clássicas: … $text = wordwrap($text, $cutLength, ” “, $wordCut); $text = nl2br(bbcode_parser($text)); return $text; Como você pode ver, meu problema é bastante simples: tudo o que quero é […]

Expressão negativa normal Lookahead / Lookbehind para excluir HTML de Localizar e replace

Eu tenho um recurso no meu site onde os resultados da pesquisa têm a consulta de pesquisa destacada nos resultados. No entanto, alguns dos campos que o site buscou têm HTML nela. Por exemplo, digamos que eu tive um resultado de pesquisa consistindo em Hello all . Se o usuário pesquisou a letra a , […]

Corte dividido em uma parte menor com restrição

Eu preciso dividir uma string longa em uma matriz com as seguintes restrições: A input será HTML string , pode ser total ou parcial. Cada parte (novas strings) terá um número limitado de caracteres (por exemplo, não mais de 8000 caracteres) Cada parte pode conter várias frases (delimitadas por. [Full stop]), mas nunca em frases […]

php DOMDocument class: tree de nó

Eu quero converter syntax html em uma tree de nó ( estrutura). Como faço isso usando a class DOMDocument? $html = ‘ ‘; resultado: div p a

Eu preciso extrair o valor do link que é armazenado em uma marca usando o código php. Do código acima eu quero extrair o link http://stackoverflow.com/questions/ask usando o código php.

PHP: Extraindo a string entre duas tags pelo conteúdo do childs

Eu tenho a seguinte marcação html: Online: 2/14/2010 3:40 AM Hearing Impaired: No Downloads: 3,840 e eu quero capturar 3,840 da última li por “Downloads:” . O que você sugere ? Minha tentativa: preg_match(‘/Downloads:(.*?)/s’, $s, $a);

Parser XML vs regex

O que devo usar? Eu vou buscar links, imagens, texto, etc. e usá-lo para usá-lo construindo statistics seo e análise da página. O que você recomenda para ser usado? Parser XML ou regex Eu tenho usado regex e nunca tive problemas com isso no entanto, ouvi falar de pessoas que não pode fazer algumas coisas […]

Analisando o conteúdo da tabela em php / regex e obtendo resultado por td

Eu tenho uma mesa como essa que passei um dia inteiro tentando obter os dados: Monthely rent Fr. 1’950. Rooms(s) 3 Surface 93m2 Date of Contract 01.04.17 Como você pode ver os dados estão bem organizados, e estou tentando obter esse resultado: monthly rent => Fr. 1’950. Rooms(s) => 3 Surface => 93m2 Date of […]