aggregazione di dati come polyvore.com [chiuso]

-1

Sto creando un sito web che aggregherà scarpe da donna attraverso il web in un unico sito web. Un po 'come polyvore.com fa con tutti i loro prodotti, ma il mio sarà solo scarpe. Il che rende il mio lavoro molto più semplice, ma sono ancora perso su come faccio a ottenere tutti i dati.

Finora ho accesso a 3 API. Che forniscono oltre 15.000 elementi pubblicitari finora, ma ci sono 1000 di siti là fuori e milioni di prodotti.

Qual è il metodo migliore per aggregare tutti questi dati? È persino possibile?

O dovrei fare affidamento anche su un aspetto sociale, come il polyvore in cui gli utenti possono caricare qualsiasi prodotto che non si trova sul sito web?

Inoltre, devo ricorrere allo screen scraping?

E questo è possibile come un one man show? Polyvore ha un team di 30 programmatori, ho bisogno di un team per farlo correttamente?

    
posta Kyle Koopman 15.04.2013 - 23:11
fonte

1 risposta

1

Da un punto di vista tecnico, questo è tutto possibile in un modo o nell'altro. L'opzione migliore è l'importazione periodica della raccolta di un altro sito tramite API che forniscono quali dati leggibili dalla macchina. In caso contrario, raschiatura potrebbe anche funzionare, anche se è intrinsecamente fragile e potrebbe essere necessario essere ottimizzato spesso per ogni sito da cui raschi. Inoltre, sei limitato a pagine che sono individuabili tramite ricerche sul Web: qualsiasi cosa nascosta dietro un modulo di ricerca sarà inaccessibile per te.

Una volta ottenuti i dati grezzi, è necessario normalizzarli negli elementi principali necessari per visualizzare un paio di scarpe e consentire alle persone di acquistarli. Questo è essenzialmente un problema di mappatura dei dati in una varietà di formati nei tuoi. Probabilmente tutte le informazioni sono lì, ma probabilmente saranno organizzate diversamente su ciascuna fonte. Non c'è scienza missilistica qui, ma tutta questa mappatura dei dati (per non parlare della costruzione del tuo sito) potrebbe farti desiderare di avere un team di 30 programmatori. :)

Dal punto di vista del business, penso che tu ti trovi su un terreno un po 'instabile. Prima di tutto, ciò che stai facendo potrebbe essere o non essere legale: probabilmente creerai copie del loro testo e immagini, che potrebbero essere coperte da copyright, o sarai deep linking nel loro sito, che è di per sé controverso. In secondo luogo, se si omogeneizza l'esperienza di acquisto, si sopprimono le caratteristiche uniche di branding e shopping di un singolo negozio e si mettono su un piano di parità con i suoi concorrenti, cosa che potrebbe non piacergli (ci sono la SEO vincente e l'ingegneria costosa). Per aiutare con la legalità e la sicurezza, rispetta i file robots.txt (se riesci a raschiare) e rendi più semplice la disattivazione dei negozi (o la possibilità di disattivarli). Detto questo, Google Shopper lo fa da anni (anche se è passato di recente a un modello in cui i negozi pagano per essere inclusi nella ricerca risultati - niente più polemiche).

Penso che la cosa migliore da fare sia stabilire rapporti commerciali e tecnici con ogni negozio che supporti. Questo ti fornirà API pulite da utilizzare e sarai percepito come un amico, non un fastidio (o peggio).

    
risposta data 16.04.2013 - 01:37
fonte

Leggi altre domande sui tag