web spider per facebook

-1

Ho appena aderito a una pagina di Facebook che pubblica link a diversi progetti open source o archivi di codice. Mi piacerebbe salvare quei collegamenti e descrizioni a un db locale.

Come posso farlo? Ho sentito qualcosa sul concetto di web spider e conosco php e java ma non so come posso risolvere il problema dall'alto.

Grazie!

    
posta dole doug 24.08.2013 - 16:30
fonte

1 risposta

2

Stai cercando un raschietto web che è un'applicazione progettata per leggere i dati su una pagina Web e elaborarla . Il raschietto fa parte di un crawler (il crawler attraversa anche i collegamenti su una pagina per trovare altre pagine sulla rete).

I web scrapers e i crawler devono rispettare lo standard di esclusione dei robot specificato in robots.txt. Per Facebook, questo è al link

Nota l'elenco specifico di agenti utente consentiti (ad esempio googlebot). E l'ultimo:

User-agent: *
Disallow: /

Che dice "non dovresti fare qualsiasi cosa se non ti è permesso".

C'è una pagina menzionata nella parte leggibile da umani di robots.txt:

# Notice: if you would like to crawl Facebook you can
# contact us here: http://www.facebook.com/apps/site_scraping_tos.php
# to apply for white listing. Our general terms are available
# at http://www.facebook.com/apps/site_scraping_tos_terms.php

Il link inizia con:

  1. These terms govern your collection of data from Facebook through automated means, such as through harvesting bots, robots, spiders, or scrapers ("Automated Data Collection"), as well as your use of that data.
  2. You will not engage in Automated Data Collection without Facebook's express written permission.

Suggerirei di leggere Come sono stato denunciato da Facebook - I loro avvocati hanno i denti.

    
risposta data 24.08.2013 - 17:31
fonte

Leggi altre domande sui tag