1. C++ / Говнокод #27241

    0

    1. 001
    2. 002
    3. 003
    4. 004
    5. 005
    6. 006
    7. 007
    8. 008
    9. 009
    10. 010
    11. 011
    12. 012
    13. 013
    14. 014
    15. 015
    16. 016
    17. 017
    18. 018
    19. 019
    20. 020
    21. 021
    22. 022
    23. 023
    24. 024
    25. 025
    26. 026
    27. 027
    28. 028
    29. 029
    30. 030
    31. 031
    32. 032
    33. 033
    34. 034
    35. 035
    36. 036
    37. 037
    38. 038
    39. 039
    40. 040
    41. 041
    42. 042
    43. 043
    44. 044
    45. 045
    46. 046
    47. 047
    48. 048
    49. 049
    50. 050
    51. 051
    52. 052
    53. 053
    54. 054
    55. 055
    56. 056
    57. 057
    58. 058
    59. 059
    60. 060
    61. 061
    62. 062
    63. 063
    64. 064
    65. 065
    66. 066
    67. 067
    68. 068
    69. 069
    70. 070
    71. 071
    72. 072
    73. 073
    74. 074
    75. 075
    76. 076
    77. 077
    78. 078
    79. 079
    80. 080
    81. 081
    82. 082
    83. 083
    84. 084
    85. 085
    86. 086
    87. 087
    88. 088
    89. 089
    90. 090
    91. 091
    92. 092
    93. 093
    94. 094
    95. 095
    96. 096
    97. 097
    98. 098
    99. 099
    100. 100
    // https://github.com/google/ruy/blob/2887692065c38ef6617f423feafc6b69dd0a0681/ruy/pack_avx2_fma.cc#L66
    
    inline void Pack8bitColMajorForAvx2Packer(
        const std::int8_t* src_ptr, std::int8_t input_xor,
        const std::int8_t* zerobuf, int src_stride, int remaining_src_cols,
        int src_rows, std::int8_t* packed_ptr, std::int32_t* sums_ptr,
        std::int8_t* trailing_buf) {
      using Layout = PackImpl8bitAvx2::Layout;
      RUY_DCHECK_EQ(Layout::kCols, 8);
      RUY_DCHECK_EQ(Layout::kRows, 4);
      // Each Layout::Rows is 4 contiguous input, contiguous packed elements.
      // We process 8 of these chunks at a time, padding short input chunks.
      constexpr int kNumRowChunks = 8;
      constexpr int kNumChunkedSrcRows = kNumRowChunks * Layout::kRows;
    
      const std::int8_t* src_ptr0 = src_ptr;
      const std::int8_t* src_ptr1 = src_ptr0 + src_stride;
      const std::int8_t* src_ptr2 = src_ptr1 + src_stride;
      const std::int8_t* src_ptr3 = src_ptr2 + src_stride;
      const std::int8_t* src_ptr4 = src_ptr3 + src_stride;
      const std::int8_t* src_ptr5 = src_ptr4 + src_stride;
      const std::int8_t* src_ptr6 = src_ptr5 + src_stride;
      const std::int8_t* src_ptr7 = src_ptr6 + src_stride;
      std::int64_t src_inc0 = kNumChunkedSrcRows;
      std::int64_t src_inc1 = kNumChunkedSrcRows;
      std::int64_t src_inc2 = kNumChunkedSrcRows;
      std::int64_t src_inc3 = kNumChunkedSrcRows;
      std::int64_t src_inc4 = kNumChunkedSrcRows;
      std::int64_t src_inc5 = kNumChunkedSrcRows;
      std::int64_t src_inc6 = kNumChunkedSrcRows;
      std::int64_t src_inc7 = kNumChunkedSrcRows;
      // Handle cases where source does not have Layout::kCols (8) columns.
      if (remaining_src_cols < 8) {
        if (remaining_src_cols <= 0) {
          src_ptr0 = zerobuf;
          src_inc0 = 0;
        }
        if (remaining_src_cols <= 1) {
          src_ptr1 = zerobuf;
          src_inc1 = 0;
        }
        if (remaining_src_cols <= 2) {
          src_ptr2 = zerobuf;
          src_inc2 = 0;
        }
        if (remaining_src_cols <= 3) {
          src_ptr3 = zerobuf;
          src_inc3 = 0;
        }
        if (remaining_src_cols <= 4) {
          src_ptr4 = zerobuf;
          src_inc4 = 0;
        }
        if (remaining_src_cols <= 5) {
          src_ptr5 = zerobuf;
          src_inc5 = 0;
        }
        if (remaining_src_cols <= 6) {
          src_ptr6 = zerobuf;
          src_inc6 = 0;
        }
        src_ptr7 = zerobuf;
        src_inc7 = 0;
      }
    
      const std::int8_t zero_point = zerobuf[0];
    
      if (sums_ptr) {
        // i: Layout::kCols.
        for (int i = 0; i < 8; ++i) {
          sums_ptr[i] = 0;
        }
      }
      std::int32_t sums_adjustment = 0;
      const __m256i ones_16bit = _mm256_set1_epi16(1);
      __m256i sums_4x2_32bit_lo = _mm256_set1_epi32(0);
      __m256i sums_4x2_32bit_hi = _mm256_set1_epi32(0);
    
      // The overall packing effectively pads the source rows to
      // (src_rows + 63) & ~63. The iteration over k may skip when m=1, and then we
      // only pack for (src_rows + 31) & ~31. When there is an incomplete
      // destination block, this is stored into trailing_buf instead of packed_ptr.
      for (int k = 0; k < src_rows; k += kNumChunkedSrcRows) {
        // Available source rows.
        // If this is less than 0 (for m=1), we skip, having filled trailing
        // buffer for m=0. Also, if source rows is zero on m=1, then we filled
        // exactly to the end of the column in the packed buffer.
        const int available_src_rows = src_rows - k;
        // Effectively,
        // available rows = std::max(0, std::min(8, src_rows - k));
        // treat each case separately.
        if (available_src_rows >= kNumChunkedSrcRows) {
          if (sums_ptr) {
            __m256i t0, t1, t2, t3, t4, t5, t6, t7;
            __m256i r0, r1, r2, r3, r4, r5, r6, r7;
            const __m256i input_xor_v = _mm256_set1_epi8(input_xor);
    
            t0 = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(src_ptr0));
            t4 = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(src_ptr4));
            t1 = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(src_ptr1));

    Интересно, они это вручную всё писали, или какой-то хуйней генерировали?

    Запостил: j123123, 08 Февраля 2021

    Комментарии (17) RSS

    • // https://github.com/google/ruy/blob/2887692065c38ef6617f423feafc6b69dd0a0681/ruy/pack_avx2_fma.cc#L388
            r0 = _mm256_unpacklo_epi32(t0, t1);
            r4 = _mm256_unpacklo_epi32(t4, t5);
            r2 = _mm256_unpackhi_epi32(t0, t1);
            r6 = _mm256_unpackhi_epi32(t4, t5);
            r1 = _mm256_unpacklo_epi32(t2, t3);
            r5 = _mm256_unpacklo_epi32(t6, t7);
            r3 = _mm256_unpackhi_epi32(t2, t3);
            r7 = _mm256_unpackhi_epi32(t6, t7);
      
            t0 = _mm256_unpacklo_epi64(r0, r1);
            t4 = _mm256_unpacklo_epi64(r4, r5);
            t2 = _mm256_unpackhi_epi64(r0, r1);
            t6 = _mm256_unpackhi_epi64(r4, r5);
            t1 = _mm256_unpacklo_epi64(r2, r3);
            t5 = _mm256_unpacklo_epi64(r6, r7);
            t3 = _mm256_unpackhi_epi64(r2, r3);
            t7 = _mm256_unpackhi_epi64(r6, r7);

      И почему они эту комбинатушню не хотят генерить шаблоноговном? И вообще, по какому, блядь, принципу расставлена эта хуйня?

      почему сначала
      r0 = _mm256_unpacklo_epi32(t0, t1);
      потом
      r4 = _mm256_unpacklo_epi32(t4, t5);
      потом
      r2 = _mm256_unpackhi_epi32(t0, t1);
      ???
      Ответить
      • Какая-то ссаная блядская поебень, которая непойми с какого хуя так написана и хуй кто когда в ней разберется кроме авторов
        Ответить
      • Наверное какое-то битоёбство: они же распаковывают lo и hi части какой-то питушни.

        r0 – нулевой оффсет «регистра», потом оттуда два байта высасывают и переходят в следующий «регистр» за lo частью. Потом из предыдущего берут hi.

        В принципе, адекватный низкоуровневый код. Когда я cpuid использовал, я тоже написал правильно, как я думал, а потом оказалось, что буквы в другом порядке. Но я долго не разбирался и просто переставил блоки кода, получилось примерно так же непонятно.
        Ответить
        • Вопрос на засыпку. «Лолечка» - не инканус ли?
          Ответить
          • https://govnokod.ru/26904
            Ответить
            • Не исключает мою версию.
              Ответить
              • Инканус трапами и аниме вроде не интересовался.
                Ответить
                • А для чего и акк-то новый заводить?)
                  Ответить
                  • Со старого стыдно про такое писать?

                    Ну х.з., инканус вроде слишком стар чтобы лабы про cpuid пилить.
                    Ответить
                    • Вот этого я уже не знаю. Может это его ролевая игра, типа он лолечка настолько лолли, что помолодела до лаб по cpuid
                      Ответить
                      • Ладно, раскрою вам свою тайну. Я, JloJle4Ka, находясь в здравом уме и твердой памяти, торжественно заявляю: я – досмотрела аниме, скоро пойду писать лабу на паскале. А ты чего тут хотел увидеть, бака-семпай? :з
                        Ответить
              • Маоам не Инканкус
                Ответить
    • Проект кстати называется «Рай» что ли?
      Ответить

    Добавить комментарий