Guia Semalt na extensão do raspador para Chrome

Para qualquer empresa sobreviver e, finalmente, crescer, é necessário ficar à frente dos concorrentes e de vários riscos. Tomar decisões com base em dados analíticos é uma maneira de esquecer esses problemas. Esses dados podem ser adquiridos por sucateamento de dados. É aí que entra a fácil extensão do raspador para o Chrome: além de facilitar o processo de coleta de dados, também é possível raspar em movimento sem configurações complicadas.

Como usar o Raspador

    1. A primeira coisa que você precisa fazer é instalar a extensão. Acesse a Chrome Web Store, pesquise "raspador" e clique em adicionar ao Chrome.

    2. Navegue até o site em que você pretende coletar dados , marque a entrada em que está interessado, destacando-a. Clique com o botão direito do mouse e selecione "raspar semelhante" no menu que aparece.

    3. Fazer isso abrirá uma janela separada do console do raspador. Aqui, você verá uma lista dos dados raspados .

    4. Para salvar o conteúdo, clique em "Salvar no Google Docs", isso exportará automaticamente os dados para uma planilha do Google.

Raspagem prolongada

Caso esteja planejando extrair mais dados, você pode usar a abordagem avançada. Observe que será muito mais fácil trabalhar com a ferramenta se você tiver algum conhecimento de HTML. Suponha que você deseje coletar dados de uma fonte que tenha um arquivo morto com base em dados de séries temporais. Nesse caso, se você tentar o método descrito acima, obterá os dados ilegíveis.

Para resolver esse problema, você pode usar uma linguagem de consulta HTML e XML conhecida como XPath. O que isso faz? O XPath reconhece dados referentes aos diferentes elementos contidos em cada seleção. A seguir, um guia sobre como fazer isso:

1. Vá para o console do Raspador, no canto superior esquerdo, observe um botão "XPath", clique nele e prossiga para montar a tabela inicial.

2. Você precisa escrever o XPath para o elemento certo. O XPath atual, que inclui todas as informações, será exibido em um formato como este "// div [3] / div [3] / div [2] / div". Os elementos <div> serão reconhecidos no documento HTML pelo computador.

3. Para separar os dados reconhecidos, você deve usar as colunas Raspador. Para fazer isso, você precisa procurar os diferentes tipos de informações disponíveis. Dependendo dos dados que você está raspando, você pode ter títulos. Esses títulos estão presentes ao lado de todos os conjuntos de dados. Eles são acompanhados por uma tag, neste caso, uma tag <b>.

4. Usando o elemento inspecione, localize e adicione a tag <b> ao seu XPath. Agora você pode rotular esta primeira coluna como a "coluna do título", uma vez que listará os títulos. Continue criando XPaths diferentes para cada coluna que você precisa.

5. Clique no raspar e a extensão coletará os dados automaticamente e os organizará nas diferentes colunas que você definiu.