Dipende dal tipo di rappresentatività che stai cercando. Ci sono qualcosa come 600.000 progetti presi in considerazione da Ohioh, quindi puoi considerarlo un set di dati abbastanza grande. Tuttavia, alcuni di questi progetti non sono rilevanti e sono spesso più numerosi di quanto si pensi. Ad esempio, so che in Gnome (che sembra essere indicizzato), circa il 60% di tutti i progetti non ha ricevuto alcun commit durante gli ultimi 2-3 anni. Devi buttarli via se ti interessano le tendenze "moderne".
Un altro punto è che il numero di progetti è forse una metrica troppo grossolana della popolarità della lingua: la maggior parte dei progetti è molto piccola, e alcuni sono molto grandi (le loro dimensioni in genere seguono un Distribuzione di Pareto ). Quindi, in effetti, probabilmente sarai più interessato alla dimensione cumulativa dei progetti pertinenti o dell'attività dei progetti. Devi quindi definire cosa è una dimensione del progetto (numero di righe di codice? Numero di file?). Se guardi all'evoluzione mensile del numero di commit per lingua, puoi vedere che C, HTML e Java sono silenziosamente vicini. E l'attività C sta rallentando dal 2006. Se si guarda il numero di progetti che hanno ricevuto almeno un commit al mese, il linguaggio C è addirittura al secondo posto, dopo il linguaggio HTML! Il numero mensile di righe di codice modificate è probabilmente influenzato da importanti rifattorizzazione / ristrutturazione in alcuni grandi progetti.
Temo che i dati siano anche molto eterogenei. Eclipse e Apache sono probabilmente pro-Java, poiché la maggior parte dei progetti KDE sarà probabilmente scritta in C / C ++. Il kernel di Linux è scritto principalmente in C. Quindi, se ti concentri su una particolare sottocomunità, i risultati potrebbero cambiare drasticamente.
Alla fine della giornata, i dati presentati possono essere rilevanti per un'analisi delle tendenze, ma devi definire chiaramente ciò che stai cercando e adattare le tue osservazioni di conseguenza.