Какое оборудование является самым надежным на наших рабочих станциях Puget Systems?

08.09.2021

Здесь, в Puget Systems, одним из наших главных приоритетов является обеспечение наших клиентов рабочими станциями высочайшего качества. Хотя тестирование производительности, которое мы проводим в нашем лабораторном отделе, составляет большую часть этого, не менее важна квалификация продукта, которую мы проводим за кулисами. В конце концов, высокая производительность - это потрясающе, но это ничего не значит, если рабочая станция тоже ненадежна.

В рамках нашего постоянного стремления предлагать компоненты только самого высокого качества, мы отслеживаем и регулярно проверяем уровень отказов для каждой детали, которую мы несем. Обычно это внутренний процесс, но время от времени нам нравится делиться некоторыми результатами нашего анализа с общественностью. Сегодня мы хотим дать общее представление о том, насколько надежны различные типы компонентов, которые мы используем на наших рабочих станциях, как с точки зрения их цеха (отказы, обнаруженные в нашем производственном процессе), так и с точки зрения эксплуатации (отказы после отправки системы на предприятие) заказчик) интенсивность отказов. Кроме того, мы хотим узнать, что оказалось самым надежным оборудованием, используемым на наших рабочих станциях.

Мы хотим отметить, что, поскольку каждая деталь, которую мы несем, проходит комплексный процесс квалификации, количество отказов должно быть намного ниже, чем в среднем по отрасли. Есть много отличных продуктов, но и много. не так уж и здорово. единицы. Это означает, что наша относительная частота отказов между определенными группами оборудования (например, ECC против стандартной RAM и GeForce против Quadro), скорее всего, не соответствует тому, что вы видели бы у других производителей рабочих станций или если бы вы создавали свою собственную систему.

Анализ отказов цеха

Компьютерное оборудование невероятно сложное, и даже при нашем строгом процессе аттестации всегда есть шанс, что какая-то часть может быть неисправной. Однако одна из целей нашего производственного процесса (где мы создаем, устанавливаем и тестируем каждую продаваемую нами систему) - выявить как можно больше этих дефектных деталей. Это включает в себя очевидные действия, такие как проверка физических дефектов, тестирование системы на предмет нестандартной работы и обеспечение адекватного охлаждения; но это также включает нас, сознательно пытающихся что-то сломать.

Мы, конечно, не доводим это до крайности, но мы бы предпочли вызвать преждевременный выход детали из строя, пока она еще находится в нашем магазине (где мы можем легко ее заменить), чем позволить ей выйти из строя через день, месяц или через год после того, как клиент получит свою машину. Из-за этого наши «производственные отказы» включают в себя то, что большинство людей определяют как отказы DOA (мертвые по прибытии), а также отказы, которые произошли во время нашего обширного процесса выгорания.

Чтобы увидеть, насколько надежны различные группы оборудования, мы решили получать данные ежеквартально за 3 года. Чтобы облегчить понимание этих данных, мы сгруппируем их по группам оборудования:

ЦП (Intel) -Здесь особо не о чем говорить - процессоры долгое время были одной из самых надежных частей в любом компьютере.

Материнская плата.В целом, первоначальная надежность материнской платы имеет тенденцию к правильному развитию. С 1 квартала 2017 года по второй квартал 2018 года количество отказов неуклонно снижалось. С тех пор он был немного волатильным, но в целом средний показатель оставался неизменным.

RAM.Мы решили выделить стандартную RAMи ECC (которая включает как зарегистрированные, так и незарегистрированные модели) отдельно, потому что есть несколько очень интересных точек данных. Во-первых, исходное качество ОЗУ ECC было стабильным в течение многих лет и является одной из наименее вероятных частей, которые могут вызвать у нас проблемы во время производственного процесса. Стандартная оперативная память также была очень хороша в последние несколько лет, но интересно посмотреть, насколько она улучшилась в четвертом квартале 2017 года. В это время произошли две вещи: мы перешли на оперативную память DDR4-2666 (с DDR4-2400) и мы перешли на (новые в то время) процессоры Intel 8-го поколения, такие как Intel Core i7 8700K. Любой из них может быть причиной улучшения, хотя, скорее всего, это комбинация обоих.

Графический процессор - как и вслучае с ОЗУ, мы разделили частоту отказов между видеокартами GeForce и Quadro. Начиная с GeForce, мы наблюдаем медленное, но неуклонное увеличение количества отказов в магазинах с третьего квартала 2017 года. Мы не совсем уверены, почему это происходит, поскольку мы не сильно меняли бренды за этот период, но это тревожная тенденция. Для Quadro частота отказов в магазине имеет пару огромных всплесков во втором квартале 2017 года и четвертом квартале 2018 года, что почти полностью связано с парой плохих партий карт Quadro P600 с неисправными портами HDMI или Mini DP.

Хранилище -для хранилища есть две истории, в зависимости от того, является ли диск пластиной или SSD. Во-первых, исходное качество дисков WD для пластин немного улучшилось в первом квартале 2018 года и с тех пор остается стабильным (и потрясающим). Более важной историей (и, собственно, побудившей нас написать этот пост) было начальное качество твердотельных накопителей Samsung. Проще говоря, несмотря на то, что мы продаем тысячи дисков Samsung каждый год, у нас всегда есть только горстка, которая создает какие-либо проблемы в процессе производства.

Блоки питания.Подводя итог нашим данным, блоки питания были довольно стабильными за последние 3 года. В течение этого времени мы в основном использовали блоки питания EVGA, и приятно видеть эту стабильную надежность, поскольку нестабильное качество является серьезной проблемой, с которой мы сталкивались с другими брендами блоков питания.

Анализ отказов на месте

Хотя мы стремимся сделать рабочие станции максимально надежными, оборудование в конечном итоге может сломаться, независимо от того, сколько времени и усилий мы вкладываем в него. Во многих отношениях эти «полевые» сбои, которые случаются после того, как мы отгрузили систему, намного важнее, чем «заводские» сбои. Если какая-то деталь выходит из строя во время производственного процесса, это неудобно, но обычно мы можем заменить ее и возобновить процесс довольно быстро. Однако, когда деталь умирает по просьбе клиента, ее замена может быть очень неприятным процессом - даже с нашим ведущим в отрасли отделом поддержки и ремонта.

Еще раз, мы составляем график количества отказов с третьего квартала 2016 года (последние три года). Однако обратите внимание, что указаны даты, когда мы приобрели и установили деталь, а не дату, когда деталь вышла из строя. Другими словами, чем старше дата на диаграмме, тем дольше эта часть работает в поле. Поскольку более старые детали часто более подвержены отказам, это означает, что частота отказов «в полевых условиях» может увеличиваться по мере того, как вы смотрите дальше назад во времени.

С учетом вышесказанного, давайте рассмотрим каждую категорию индивидуально:

ЦП (Intel).Несмотря на то, что процессоры Intel были очень надежными в течение последних двух лет, интересно наблюдать всплеск отказов в системах, возраст которых составляет около трех лет. Глядя на данные, это повышение надежности, по-видимому, в первую очередь связано с тем, что три года назад мы использовали процессоры Intel X-серии на базе Broadwell (такие как Core i7 6900K), которые имеют более высокий процент отказов, чем более новые. модели.

Материнская плата.Здесь мы видим тенденцию, которую можно ожидать от компьютерного оборудования в целом. Если мы заглянем в прошлое, количество отказов будет постоянно расти. Это означает, что чем старше ваша система, тем больше вероятность того, что на вашей материнской плате возникнут проблемы.

RAM -Интересно, что нет большой разницы в надежности стандартной RAM и ECC RAM за трехлетний период, который мы обозначили. ОЗУ с ECC немного надежнее, но ненамного. В любом случае, похоже, возраст ОЗУ лишь незначительно влияет на ее надежность.

GPU -для видеокарт надежность немного отличается для карт GeForce и Quadro. Что касается Quadro, то карты чрезвычайно надежны в течение первого года, но начиная со второго квартала 2018 года наблюдается резкий рост количества отказов. Это интересно, потому что мы в основном использовали Quadro P-серию вплоть до конца 2016 г., так что дело не в том, что новая линейка продуктов изменит качество карт. Для GeForce, однако, надежность в последнее время стала немного хуже, поскольку в прошлом году резко увеличилось количество отказов. Это тревожная тенденция, поскольку это означает, что новые карты GeForce имеют проблемы чаще, чем карты 2-3-летней давности.

Хранилище.Для дисков WD мы наблюдаем очень небольшое увеличение количества отказов с течением времени, но это не так уж и много. Если вернуться к 2016 году, у твердотельных накопителей Samsung есть несколько отказов, но в остальном они почти идеальны с точки зрения надежности.

Блок питания -частота отказов блоков питания за последние три года очень похожа на материнские платы - по мере того, как блок питания стареет, вероятность его выхода из строя возрастает.

Еще один способ взглянуть на эти данные - сгруппировать надежность по годам и поместить все результаты на одну диаграмму. Это не дает нам достаточно мелких деталей наших диаграмм, но помогает дать более четкое представление о том, как надежность каждого типа оборудования изменяется в зависимости от возраста системы.

Такой взгляд на данные дает очень интересную информацию. Во-первых, если у вас относительно новая система (которой меньше года), наиболее вероятным компонентом, который сломается, является карта NVIDIA GeForce. Что касается того, что с наименьшей вероятностью может вызвать проблемы в относительно новой системе, твердотельные накопители Samsung очень надежны, и только один диск вышел из строя в полевых условиях, но графические процессоры Quadro берут пирог с нулевыми сбоями в течение этого периода времени.

Однако по мере того, как система стареет, надежность блоков питания, материнских плат и, в несколько меньшей степени, графических процессоров Quadro снижается. К трехлетнему периоду вы, скорее всего, столкнетесь с проблемой с материнской платой или блоком питания, чем с чем-либо еще. С положительной стороны, SSD Samsung показывают лучшие результаты за этот трехлетний период, за ними следуют ОЗУ с ECC и стандартная ОЗУ.

Вывод

Хотя частота отказов для многих типов компонентов меняется в зависимости от возраста системы, если мы просто просуммируем частоту отказов для каждой группы оборудования, мы получим отличное представление об общей надежности для каждого типа компонентов.

Глядя на данные с этой точки зрения, можно выделить несколько вещей. Во-первых, неожиданным оказался тот факт, что жесткие диски WD на пластинах столь же надежны, как процессоры Intel в течение трехлетнего периода. Во-вторых, хотя графические процессоры Quadro более надежны в этой области, чем карты GeForce, пара плохих партий карт Quadro P600 с неисправными видеопортами означает, что в целом Quadro для нас менее надежна, чем GeForce.

Поскольку заголовок этой публикации - «Какое самое надежное оборудование на наших рабочих станциях Puget Systems?», Тем не менее, давайте продолжим и ответим на этот вопрос:

Независимо от того, смотрите ли вы на первоначальную надежность или надежность с течением времени, ясно, что твердотельные накопители Samsung - это, безусловно, самое надежное оборудование, которое мы использовали на наших рабочих станциях за последние три года.

Имейте в виду, что мы не ограничиваем наших клиентов дисками корпоративного класса или чем-то подобным - большинство из того, что мы используем, - это потребительские линейки продуктов EVO и PRO на основе SATA и NVMe. И все же они

На 50% надежнее, чем ОЗУ с ECC (здесь главное - надежность), или в 3 раза надежнее, чем процессоры Intel.

Одна вещь, которую мы хотим прояснить, - это то, что это НЕозначает, что вам не нужно создавать резервные копии своих данных, если вы используете SSD от Samsung. Да, надежность отличная, но всегда есть шанс, что накопитель выйдет из строя. Кроме того, надежный диск не защищает вас от вредоносных программ, вирусов, ударов молнии или просто случайного удаления того, чего вы не хотели. Ваши данные намного ценнее любого оборудования на вашем компьютере, и вы всегда должны принимать активные меры для их защиты.

Еще новости