måndag 17 oktober 2011

Jag hade rätt, såklart.

Vi kör en vända till i klagosången. Himla tekniskt och torrt blir det nu för folk som inte arbetar med sekvenseringsdata från Illumina.

Av oklar anledning fick jag mitt data från vår core i export.txt format. Av självklara själ behöver jag veta hur kvalitén av varje bas kodas i mina fil, detta använder jag i senare steg. Och Illumina har alltså tre olika format för att koda detta. Jag frågade min core vad dom använt, och svaret var CAVASA 1.8 där kvalitén kodas som ASCII + 33. Detta innebär att illumina-basers kvalité kodas av ASCII 33-126, men inget rådata har någonsin högre kvalité än 45 (=78 i ASCII). Jag däremot hade siffror som gick från 66 till 105, vilket inte alls överensstämmer med phred+33...

Mejlar coren och frågar, och får två gånger svaret att datat är i phred+33. Men till slut mejlar dom sin fields specialist och frågar. Och det visar sig då att CASAVA 1.8 ger dig fastq och bam filer i phred+33, men qseq.txt och export.txt (som är menat att vara interna format) kodas i phred+64.

Kontentan:
# Illumina kodar sina kvalitéer på två olika sätt i samma program.
# Min core har inte koll på detta.
# Min core skickar mig export.txt när fastq och bam, de format som klassas som standard, faktiskt produceras och är menade att ges till kunden.
# Jag inser detta. Och måste ligga på och mejla och fråga upprepade gånger för att få det bekräftat.

Jag borde debitera dem för min tid.

Uppdatering: Eller så kan man anse att detta är mitt fel. Varför ska jag vara så himla noggrann?!

Inga kommentarer:

Skicka en kommentar