Articles of screen scraping

Não é possível separar células adequadamente com simplehtmldom

Estou tentando escrever um raspador de web. Eu quero obter todas as células em uma linha. A linha perante a que eu quero tem REUNIÇÕES REALIZADAS como seu valor de texto simples. Posso obter essa linha com sucesso. Mas não consigo descobrir como obter as crianças da próxima fila, que são as células ou as […]

Erro indefinido indefinido no código CURL

Eu estou construindo um script php para pesquisar e raspar páginas do google que usam curl, recebendo o seguinte erro. Deslocamento indefinido: 1 in /home/content/53/7382753/html/Summer/wootsummer.php on line 25 A linha ofensiva é abaixo, nas configurações de curvatura. curl_setopt($ch, CURLOPT_URL,$urls[$counter]); Qualquer sugestão ou comentário seria muito apreciado, já que eu sou novo para enrolar. Para referência, […]

usando curl para obter de uma página para outra envolvendo javascript

Eu tenho webpage1.html que tem um hiperlink cujo href = “some / javascript / function / outputLink ()” Agora, usando curl (ou qualquer outro método no php), como eu deduz o hiperlink (do formato http: //) da function javascript () para que eu possa ir para a próxima página. obrigado

Definir session para raspar a página

URL1: https://duapp3.drexel.edu/webtms_du/ URL2: https://duapp3.drexel.edu/webtms_du/Colleges.asp?Term=201125&univ=DREX URL3: https://duapp3.drexel.edu/webtms_du/Courses.asp?SubjCode=CS&CollCode=E&univ=DREX Como um projeto de programação pessoal, eu quero raspar o catálogo de cursos da minha universidade e fornecê-lo como uma API RESTful. Contudo, estou com o seguinte problema. A página que eu preciso raspar é URL3. Mas URL3 apenas retorna informações significativas depois de visitar URL2 (ele define o […]

Recupere dados do primeiro td em cada tr

Estou raspando uma página que contém uma tabela com vários trs. Dentro de cada tr, existem quatro td, e eu quero obter os dados da primeira dessas Td’s. Abaixo está o código que eu tentei até agora, mas ele agarra todos os td’s. Como posso realizar o que eu quero? … $html = new simple_html_dom(); […]

Curl não funciona para obter um conteúdo da página da web, por quê?

Estou usando um script curl para acessar um link e obter seu conteúdo para manipulação adicional. O seguinte é o link e curl script: mas o site não o exclui por meio do script, está dando exceção do usuário em resultado, mas se nós normalmente colamos a URL no navegador, está abrindo a página perfeitamente […]

Raspando um arquivo de texto simples sem HTML?

Tenho os seguintes dados em um arquivo de texto simples: 1. Value Location : Value Owner: Value Architect: Value 2. Value Location : Value Owner: Value Architect: Value … upto 200+ … A numeração ea palavra Mudanças de valor para cada segmento. Agora eu preciso inserir esses dados em um database MySQL. Você tem uma […]

Raspe e gere RSS

Eu uso Simple HTML DOM para raspar uma página para as últimas notícias e, em seguida, gerar um feed RSS usando essa class PHP . Isso é o que tenho agora: find(‘td[width=”380″] p table’) as $article) { $item[‘title’] = $article->find(‘span.title’, 0)->innertext; $item[‘description’] = $article->find(‘.ingress’, 0)->innertext; $item[‘link’] = $article->find(‘.lesMer’, 0)->href; $item[‘pubDate’] = $article->find(‘span.presseDato’, 0)->plaintext; $articles[] = […]

Como postar o formulário de login ASP.NET usando PHP / CURL?

Eu preciso criar uma ferramenta que publicará um formulário de login do ASP.NET usando o PHP para que eu possa reunir detalhes da página de resumo do usuário que é exibida depois que eles estiverem logados. Como o site usa o ASP.NET e o formulário tem campos ocultos __VIEWSTATE e __EVENTVALIDATION, como eu entendo, eu […]

Interpretando JavaScript em PHP

Gostaria de poder executar JavaScript e obter os resultados com o PHP e me pergunto se existe uma biblioteca para o PHP que me permite analisar. Meu primeiro pensamento foi usar node.js, mas desde o node.js tem access a sockets, arquivos e coisas, acho que prefiro evitar isso. Razão: Estou fazendo raspagem de canvas no […]