À l'étape de collecte, création et d'analyse, il est essentiel d'avoir réfléchi aux types de données générées et utilisées, notamment au format et à la tailles qu'elles ont et à l'endroit où elles seront stockées. Cela permet de prévoir les ressources qui seront nécessaires durant la phase active du projet de recherche pour stocker et accéder aux données en plus de faciliter un éventuel partage.
Les données évoluent au fil du projet à mesure qu'elles sont produites, nettoyées, analysées, traitées, etc. L'organisation des données et la mise à jour de la documentation créée dans les premières phases du projet permettent d'assurer la continuité du projet si des changements surviennent dans l'équipe et facilitent un éventuel dépôt des données. À cette étape, on affine le traitement et le nettoyage des données et on porte une attention particulière à certains processus dont les instructions de traitement, le versionnage des ensembles de données, le nommage des fichiers, la normalisation des méthodes de classification, etc.
À cette étape, il est aussi nécessaire d'assurer la sécurité des données sensibles ou confidentielles.